我应该何时使用 Polarity？

当您在生产环境中运行 AI 代理，并且需要能够捕获提示级工具遗漏的故障的评估基础设施时，请使用 Polarity——特别是对于长时间运行、复杂、多步骤的代理，其中跨真实后端服务的有状态行为是导致故障的原因。

Polarity 与 Braintrust、LangSmith 和 Langfuse 有何不同？

Polarity 与 Braintrust、LangSmith 和 Langfuse 属于同一类别，但它围绕每次运行的真实服务沙盒而不是模拟依赖项构建。这使得它对于与真实后端服务进行多步骤交互的复杂有状态代理更加准确。

Polarity 在生产中做什么？

Polarity 监控生产中的每个代理决策，在用户遇到之前发现重复的故障模式（“行为”），并将捕获的轨迹转化为评估/护栏，从而使可靠性随着时间的推移而提高。

Polarity 可以重放故障并将其用于回归测试吗？

是的。Polarity 可以重放捕获的生产轨迹（包括通过种子复现器在本地重放），并将故障提升为行为，这些行为可以用作回归测试，以在 CI 中控制更改。

Polarity 的费用是多少？

Polarity 有三个层级：Starter（0 美元/月）、Pro（149 美元/月）和 Enterprise（定制定价）。定价详情可在 https://polarity.so/pricing（和 https://polarity.so/pricing.md）查阅。

Polarity 有 API 和 SDK 吗？

是的。Keystone REST API 在 https://keystone.polarity.so/v1 提供，其 OpenAPI 3.1 规范位于 https://polarity.so/openapi.json。SDKs 可用于 TypeScript、Python 和 Go，使用 API 密钥 Bearer 身份验证。

Polarity 符合 SOC 2 标准吗？

是的。Polarity 在 Pro 和 Enterprise 层级符合 SOC 2 Type II 标准，并且在 Pro 和 Enterprise 层级也涵盖 GDPR 和 HIPAA。Enterprise 提供 SSO/SAML、SCIM、审计日志以及 BYO 云/本地部署选项。

Polarity

WebsiteAI DevOps Assistant AI Testing & QA

Polarity 是一个用于 AI 代理的沙盒评估和监控平台，它在隔离的 Docker 环境中运行任务，并使用真实的后端服务，根据不变性/禁用规则对行为进行评分，通过副本测量非确定性，并提供基于种子的重放以重现和修复故障。

访问网站

推广此工具

https://polarity.so/?ref=producthunt&utm_source=aipure

概述
视频
替代方案

产品信息

更新于：2026年05月19日

什么是 Polarity

Polarity 是一款评估基础设施产品，旨在提高生产中运行的 AI 代理的可靠性，特别是对于长时间运行、多步骤的工作流，其中跨真实服务的有状态行为是常见的故障来源。与 Braintrust、LangSmith 和 Langfuse 等工具并驾齐驱，Polarity 的独特之处在于它在真实的沙盒（而非模拟依赖项）中评估代理，并专注于轨迹级行为而非仅仅提示级检查。它帮助团队实时监控代理决策，快速分类故障，并将反复出现的问题转化为持久的防护措施，以防止回归。

Polarity 的主要功能

Polarity 是一个用于生产 AI 代理的评估、监控和回归测试平台，它围绕在隔离的 Docker 沙盒中运行代理任务而构建，这些沙盒包括真实的后端服务（例如 Postgres、Redis、S3、内部 API）。它捕获完整的代理轨迹，检测并聚类重复的故障行为，根据行为不变量和禁用规则对运行进行评分，通过副本运行测量非确定性，并提供基于种子的重放以在本地重现故障并将其提升为可在 CI 中门控的防护措施，以防止回归——特别是对于长时间运行、多步骤、有状态的代理。

真实服务沙盒评估运行时 (Keystone): 在预加载了真实依赖项（数据库、缓存、对象存储、内部 API）的隔离 Docker 沙盒中运行每个代理任务，以揭示模拟环境经常遗漏的故障模式。

行为不变量和禁用规则评分: 根据明确的可靠性和安全约束（不变量）和不允许的模式（禁用规则）评估代理运行，将定性的“代理质量”转化为可强制执行的检查。

生产决策监控和实时流: 对代理进行检测，将决策/轨迹流式传输到 Polarity，从而实现持续监控、行为级可见性以及在发生故障时的快速分类。

行为发现、聚类和复发警报: 将决策聚类为重复行为（例如，工具循环、陈旧上下文漂移、幻觉引用、提示注入跟踪），并在已知故障模式再次出现时提醒团队。

种子重放和一键重现: 每个故障都附带一个种子重现器，可在本地重新创建相同的沙盒，从而实现确定性调试和对提示、工具或模型的更快迭代。

来自真实轨迹的 CI 回归门控: 将捕获的故障提升为可在 CI 中作为回归测试运行的行为/防护措施，当代理重新引入已知故障模式时阻止合并。

Polarity 的使用场景

客户支持代理（电子商务/SaaS）: 检测并防止工具调用循环、陈旧上下文错误以及退款/订单查询工作流中的不安全操作；重放真实事件并在部署前在 CI 中门控修复。

软件工程代理（开发工具/IT）: 在沙盒中评估代码编辑代理，并捕获“工作区逃逸”或不安全的文件/系统访问行为；确定性地重现故障并锁定防护措施。

金融科技和受监管的工作流: 使用不变量/禁用规则评分来强制执行合规性行为，监控生产中的漂移，并保持代理决策的审计友好可重现性。

医疗运营助理: 针对真实服务沙盒运行有状态、多步骤代理，并监控可靠性回归（交接失败、不完整的工具序列），通过行为门控提高安全性。

RAG/研究和知识代理: 检测工具输出中幻觉的引用和提示注入跟踪；聚类重复的检索/接地故障，并将其转换为自动化回归测试。

企业代理平台（多代理系统）: 通过副本运行测量非确定性，监控许多代理的行为级可靠性，并通过识别高影响的重复故障模式来优先处理修复。

优点

通过隔离沙盒中的真实后端服务进行高保真评估，非常适合长时间运行、有状态的代理。

强大的可重现性（种子重放）和从生产故障中快速调试/迭代。

基于行为的监控和聚类有助于团队找到根本原因并防止重复回归。

从事件 → 重放 → 提升的防护措施 → CI 门控的直接路径，从而随着时间的推移实现复合可靠性。

缺点

对于简单的单调用工作流，可能比提示级评估工具更重。

与模拟测试线束相比，使用真实服务进行沙盒化可能会增加设置/操作复杂性。

最佳价值取决于拥有生产代理流量/轨迹以进行监控并转换为行为。

如何使用 Polarity

1) 决定 Polarity 是否适合您: 当您拥有长时间运行、复杂、多步骤的 AI 代理，并且需要能够捕获跨真实后端服务（例如 Postgres/Redis/S3/内部 API）的有状态故障而不仅仅是提示级问题的评估基础设施时，请使用 Polarity。

2) 为您的环境创建工作区: 设置工作区（例如，生产、预演、实验）以组织代理、项目、队友、仪表板、警报和访问控制。

3) 使用 Polarity SDK 检测您的代理: 向您的代理添加 Polarity 检测，以便它将决策流式传输到 Polarity 进行监控和重放。源代码中显示的示例：import polarity as pl; agent = pl.instrument(agent=my_agent, workspace="prod", capture="decisions", sample_rate=1.0)。

4) 在生产中运行您的代理并启用决策捕获: 照常部署，但 Polarity 会捕获决策级别的数据。Polarity 旨在监控生产中的每个代理决策，并在用户遇到故障模式之前将其浮现出来。

5) 监控实时决策流和行为级健康状况: 使用 Polarity 的生产监控来实时观察决策，并按代理和行为（而不仅仅是延迟）跟踪可靠性。配置行为级监控器和轨迹感知警报，以检测回归和重复出现的故障模式。

6) 通过提取跟踪和查找类似事件来调查故障: 当代理发生故障时，打开跟踪（轨迹）并使用 Polarity 的聚类功能查找类似的故障（重复出现的模式/行为），以便您可以更快地找出根本原因。

7) 识别并标记重复出现的故障行为: 使用 Polarity 的行为发现和聚类功能将决策分组为行为（例如，工具循环检测器、陈旧上下文漂移、幻觉引用），并了解其对用户和代理的影响。

8) 使用种子重现功能在本地重放生产故障: 使用 Polarity 的重放工具在本地重现相同的沙盒（种子重现器），并重新运行完全相同的生产轨迹。源代码中显示的示例：uv run plr replay --trace <trace_id> --agent @ examples/agent/agent.toml --diff inline。

9) 将重现的故障提升为行为/防护措施: 将捕获的故障转化为具有不变性和禁用规则的可重用行为定义，以便将来检测并阻止相同的回归。源代码展示了一个可以包含 --promote-to-behavior 的重放流程。

10) 使用提升的行为在 CI 中阻止回归: 通过针对候选修复（提示/工具/模型更改）重放生产跟踪来运行 CI 回归测试。将评估提升到 CI 中，以便当已知故障行为再次出现时阻止合并。

11) 使用副本测量非确定性: 配置副本运行以量化非确定性（多次运行相同的任务），并根据行为不变性和禁用规则对结果进行评分。

12) 迭代：发布修复、扩展覆盖范围并提高可靠性: 随着生产中出现新的故障，重复循环：检测 → 跟踪 → 聚类 → 重放 → 提升为行为 → 在 CI 中门控。随着时间的推移，Polarity 将检测到的故障“锁定”为防护措施，从而提高可靠性。

Polarity 常见问题

Polarity 是专为 AI 代理设计的沙盒评估基础设施。其 Keystone 运行时在独立的 Docker 沙盒中运行每个代理任务，该沙盒预加载了真实的后端服务（例如 Postgres、Redis、S3、内部 API），根据行为不变量和禁止规则对运行进行评分，通过副本测量非确定性，并提供带有种子复现器的故障，以便在本地重新创建相同的沙盒。