Polarity 是一个用于 AI 代理的沙盒评估和监控平台,它在隔离的 Docker 环境中运行任务,并使用真实的后端服务,根据不变性/禁用规则对行为进行评分,通过副本测量非确定性,并提供基于种子的重放以重现和修复故障。
https://polarity.so/?ref=producthunt&utm_source=aipure
Polarity

产品信息

更新于:2026年05月19日

什么是 Polarity

Polarity 是一款评估基础设施产品,旨在提高生产中运行的 AI 代理的可靠性,特别是对于长时间运行、多步骤的工作流,其中跨真实服务的有状态行为是常见的故障来源。与 Braintrust、LangSmith 和 Langfuse 等工具并驾齐驱,Polarity 的独特之处在于它在真实的沙盒(而非模拟依赖项)中评估代理,并专注于轨迹级行为而非仅仅提示级检查。它帮助团队实时监控代理决策,快速分类故障,并将反复出现的问题转化为持久的防护措施,以防止回归。

Polarity 的主要功能

Polarity 是一个用于生产 AI 代理的评估、监控和回归测试平台,它围绕在隔离的 Docker 沙盒中运行代理任务而构建,这些沙盒包括真实的后端服务(例如 Postgres、Redis、S3、内部 API)。它捕获完整的代理轨迹,检测并聚类重复的故障行为,根据行为不变量和禁用规则对运行进行评分,通过副本运行测量非确定性,并提供基于种子的重放以在本地重现故障并将其提升为可在 CI 中门控的防护措施,以防止回归——特别是对于长时间运行、多步骤、有状态的代理。
真实服务沙盒评估运行时 (Keystone): 在预加载了真实依赖项(数据库、缓存、对象存储、内部 API)的隔离 Docker 沙盒中运行每个代理任务,以揭示模拟环境经常遗漏的故障模式。
行为不变量和禁用规则评分: 根据明确的可靠性和安全约束(不变量)和不允许的模式(禁用规则)评估代理运行,将定性的“代理质量”转化为可强制执行的检查。
生产决策监控和实时流: 对代理进行检测,将决策/轨迹流式传输到 Polarity,从而实现持续监控、行为级可见性以及在发生故障时的快速分类。
行为发现、聚类和复发警报: 将决策聚类为重复行为(例如,工具循环、陈旧上下文漂移、幻觉引用、提示注入跟踪),并在已知故障模式再次出现时提醒团队。
种子重放和一键重现: 每个故障都附带一个种子重现器,可在本地重新创建相同的沙盒,从而实现确定性调试和对提示、工具或模型的更快迭代。
来自真实轨迹的 CI 回归门控: 将捕获的故障提升为可在 CI 中作为回归测试运行的行为/防护措施,当代理重新引入已知故障模式时阻止合并。

Polarity 的使用场景

客户支持代理(电子商务/SaaS): 检测并防止工具调用循环、陈旧上下文错误以及退款/订单查询工作流中的不安全操作;重放真实事件并在部署前在 CI 中门控修复。
软件工程代理(开发工具/IT): 在沙盒中评估代码编辑代理,并捕获“工作区逃逸”或不安全的文件/系统访问行为;确定性地重现故障并锁定防护措施。
金融科技和受监管的工作流: 使用不变量/禁用规则评分来强制执行合规性行为,监控生产中的漂移,并保持代理决策的审计友好可重现性。
医疗运营助理: 针对真实服务沙盒运行有状态、多步骤代理,并监控可靠性回归(交接失败、不完整的工具序列),通过行为门控提高安全性。
RAG/研究和知识代理: 检测工具输出中幻觉的引用和提示注入跟踪;聚类重复的检索/接地故障,并将其转换为自动化回归测试。
企业代理平台(多代理系统): 通过副本运行测量非确定性,监控许多代理的行为级可靠性,并通过识别高影响的重复故障模式来优先处理修复。

优点

通过隔离沙盒中的真实后端服务进行高保真评估,非常适合长时间运行、有状态的代理。
强大的可重现性(种子重放)和从生产故障中快速调试/迭代。
基于行为的监控和聚类有助于团队找到根本原因并防止重复回归。
从事件 → 重放 → 提升的防护措施 → CI 门控的直接路径,从而随着时间的推移实现复合可靠性。

缺点

对于简单的单调用工作流,可能比提示级评估工具更重。
与模拟测试线束相比,使用真实服务进行沙盒化可能会增加设置/操作复杂性。
最佳价值取决于拥有生产代理流量/轨迹以进行监控并转换为行为。

如何使用 Polarity

1) 决定 Polarity 是否适合您: 当您拥有长时间运行、复杂、多步骤的 AI 代理,并且需要能够捕获跨真实后端服务(例如 Postgres/Redis/S3/内部 API)的有状态故障而不仅仅是提示级问题的评估基础设施时,请使用 Polarity。
2) 为您的环境创建工作区: 设置工作区(例如,生产、预演、实验)以组织代理、项目、队友、仪表板、警报和访问控制。
3) 使用 Polarity SDK 检测您的代理: 向您的代理添加 Polarity 检测,以便它将决策流式传输到 Polarity 进行监控和重放。源代码中显示的示例:import polarity as pl; agent = pl.instrument(agent=my_agent, workspace="prod", capture="decisions", sample_rate=1.0)。
4) 在生产中运行您的代理并启用决策捕获: 照常部署,但 Polarity 会捕获决策级别的数据。Polarity 旨在监控生产中的每个代理决策,并在用户遇到故障模式之前将其浮现出来。
5) 监控实时决策流和行为级健康状况: 使用 Polarity 的生产监控来实时观察决策,并按代理和行为(而不仅仅是延迟)跟踪可靠性。配置行为级监控器和轨迹感知警报,以检测回归和重复出现的故障模式。
6) 通过提取跟踪和查找类似事件来调查故障: 当代理发生故障时,打开跟踪(轨迹)并使用 Polarity 的聚类功能查找类似的故障(重复出现的模式/行为),以便您可以更快地找出根本原因。
7) 识别并标记重复出现的故障行为: 使用 Polarity 的行为发现和聚类功能将决策分组为行为(例如,工具循环检测器、陈旧上下文漂移、幻觉引用),并了解其对用户和代理的影响。
8) 使用种子重现功能在本地重放生产故障: 使用 Polarity 的重放工具在本地重现相同的沙盒(种子重现器),并重新运行完全相同的生产轨迹。源代码中显示的示例:uv run plr replay --trace <trace_id> --agent @ examples/agent/agent.toml --diff inline。
9) 将重现的故障提升为行为/防护措施: 将捕获的故障转化为具有不变性和禁用规则的可重用行为定义,以便将来检测并阻止相同的回归。源代码展示了一个可以包含 --promote-to-behavior 的重放流程。
10) 使用提升的行为在 CI 中阻止回归: 通过针对候选修复(提示/工具/模型更改)重放生产跟踪来运行 CI 回归测试。将评估提升到 CI 中,以便当已知故障行为再次出现时阻止合并。
11) 使用副本测量非确定性: 配置副本运行以量化非确定性(多次运行相同的任务),并根据行为不变性和禁用规则对结果进行评分。
12) 迭代:发布修复、扩展覆盖范围并提高可靠性: 随着生产中出现新的故障,重复循环:检测 → 跟踪 → 聚类 → 重放 → 提升为行为 → 在 CI 中门控。随着时间的推移,Polarity 将检测到的故障“锁定”为防护措施,从而提高可靠性。

Polarity 常见问题

Polarity 是专为 AI 代理设计的沙盒评估基础设施。其 Keystone 运行时在独立的 Docker 沙盒中运行每个代理任务,该沙盒预加载了真实的后端服务(例如 Postgres、Redis、S3、内部 API),根据行为不变量和禁止规则对运行进行评分,通过副本测量非确定性,并提供带有种子复现器的故障,以便在本地重新创建相同的沙盒。

与 Polarity 类似的最新 AI 工具

Hapticlabs
Hapticlabs
Hapticlabs是一个无代码工具包,使设计师、开发者和研究人员能够轻松地在设备上设计、原型设计和部署沉浸式触觉交互,无需编码。
Deployo.ai
Deployo.ai
Deployo.ai 是一个全面的 AI 部署平台,支持无缝模型部署、监控和扩展,并内置了道德 AI 框架和跨云兼容性。
CloudSoul
CloudSoul
CloudSoul 是一个 AI 驱动的 SaaS 平台,通过自然语言对话使用户能够即时部署和管理云基础设施,使 AWS 资源管理更加便捷和高效。
Devozy.ai
Devozy.ai
Devozy.ai是一个AI驱动的开发者自助服务平台,将敏捷项目管理、DevSecOps、多云基础设施管理和IT服务管理结合到一个统一的解决方案中,以加速软件交付。