我應該何時使用 Polarity？

當您在生產環境中運行 AI 代理，並且需要評估基礎設施來捕捉提示級工具遺漏的故障時，請使用 Polarity——特別是對於長時間運行、複雜、多步驟的代理，其中跨真實後端服務的狀態行為是導致問題的原因。

Polarity 與 Braintrust、LangSmith 和 Langfuse 有何不同？

Polarity 與 Braintrust、LangSmith 和 Langfuse 屬於同一類別，但它圍繞著每次運行的真實服務沙盒而非模擬依賴項構建。這使得它對於與真實後端服務進行多步驟交互的複雜、有狀態代理來說更為準確。

Polarity 在生產環境中做什麼？

Polarity 監控生產環境中的每個代理決策，在用戶遇到之前發現重複的故障模式（「行為」），並將捕獲的軌跡轉化為評估/防護措施，從而隨著時間的推移提高可靠性。

Polarity 可以重播故障並將其用於回歸測試嗎？

是的。Polarity 可以重播捕獲的生產軌跡（包括通過種子重現器在本地重播），並將故障提升為行為，這些行為可以用作回歸測試，以在 CI 中控制變更。

Polarity 的費用是多少？

Polarity 有三個層級：Starter（每月 0 美元）、Pro（每月 149 美元）和 Enterprise（自訂定價）。定價詳情可在 https://polarity.so/pricing (和 https://polarity.so/pricing.md) 查閱。

Polarity 有 API 和 SDK 嗎？

是的。Keystone REST API 服務於 https://keystone.polarity.so/v1，其 OpenAPI 3.1 規範位於 https://polarity.so/openapi.json。SDKs 提供 TypeScript、Python 和 Go 版本，使用 API 密鑰 Bearer 身份驗證。

Polarity 符合 SOC 2 標準嗎？

是的。Polarity 在 Pro 和 Enterprise 層級符合 SOC 2 Type II 標準，並且在 Pro 和 Enterprise 層級也涵蓋 GDPR 和 HIPAA。Enterprise 提供 SSO/SAML、SCIM、審計日誌以及 BYO 雲端/本地部署選項。

Polarity

WebsiteAI DevOps Assistant AI Testing & QA

Polarity 是一個用於 AI 代理程式的沙盒評估和監控平台，它在具有真實後端服務的隔離 Docker 環境中運行任務，根據不變量/禁用規則評估行為，透過副本測量非確定性，並提供基於種子的重播以重現和修復故障。

訪問網站

宣傳此工具

https://polarity.so/?ref=producthunt&utm_source=aipure

概覽
影片
替代方案

產品資訊

更新時間：2026年05月19日

什麼是 Polarity

Polarity 是一個評估基礎設施產品，旨在提高生產中運行的 AI 代理程式的可靠性，特別是對於長時間運行、多步驟的工作流程，其中跨真實服務的有狀態行為是常見的故障來源。Polarity 與 Braintrust、LangSmith 和 Langfuse 等工具並列，透過在真實沙盒（而非模擬依賴項）中評估代理程式，並專注於軌跡級行為而非僅限提示級檢查來區分自己。它幫助團隊即時監控代理程式決策，快速分類故障，並將重複出現的問題轉化為持久的防護措施，以防止回歸。

Polarity 的主要功能

Polarity 是一個用於生產 AI 代理的評估、監控和回歸測試平台，其核心是在隔離的 Docker 沙盒中運行代理任務，這些沙盒包含真實的後端服務（例如 Postgres、Redis、S3、內部 API）。它捕捉完整的代理軌跡，檢測並聚類重複的失敗行為，根據行為不變量和禁用規則對運行進行評分，通過副本運行測量非確定性，並提供基於種子的重放以在本地重現失敗並將其提升為防護欄，這些防護欄可以在 CI 中進行門控以防止回歸——特別是對於長時間運行、多步驟、有狀態的代理。

真實服務沙盒評估運行時 (Keystone): 在隔離的 Docker 沙盒中運行每個代理任務，預載真實依賴項（資料庫、緩存、對象存儲、內部 API），以揭示模擬環境經常遺漏的失敗模式。

行為不變量和禁用規則評分: 根據明確的可靠性和安全約束（不變量）和不允許的模式（禁用規則）評估代理運行，將定性的「代理質量」轉化為可執行的檢查。

生產決策監控和即時串流: 儀器代理以將決策/軌跡串流到 Polarity，實現始終在線監控、行為級別可見性，並在發生故障時快速分類。

行為發現、聚類和重複警報: 將決策聚類為重複行為（例如，工具循環、過時上下文漂移、幻覺引用、提示注入），並在已知失敗模式再次出現時提醒團隊。

種子重放和一鍵重現: 每個失敗都附帶一個種子重現器，可在本地重新創建相同的沙盒，實現確定性調試和更快地迭代提示、工具或模型。

來自真實軌跡的 CI 回歸門控: 將捕獲的失敗提升為可在 CI 中作為回歸測試運行的行為/防護欄，當代理重新引入已知失敗模式時阻止合併。

Polarity 的使用案例

客戶支援代理（電子商務/SaaS）: 檢測並防止工具調用循環、過時上下文錯誤以及退款/訂單查詢工作流程中的不安全操作；重放真實事件並在部署前在 CI 中門控修復。

軟體工程代理（開發工具/IT）: 在沙盒中評估代碼編輯代理，並捕捉「工作區逃逸」或不安全的文件/系統訪問行為；確定性地重現失敗並鎖定防護欄。

金融科技和受監管的工作流程: 使用不變量/禁用規則評分來強制執行合規導向的行為，監控生產中的漂移，並保持代理決策的審計友好可重現性。

醫療保健營運助理: 針對真實服務沙盒運行有狀態、多步驟代理，並監控可靠性回歸（交接失敗、不完整的工具序列），通過行為門控提高安全性。

RAG/研究和知識代理: 檢測工具輸出中的幻覺引用和提示注入；聚類重複的檢索/基礎失敗並將其轉換為自動化回歸測試。

企業代理平台（多代理系統）: 通過副本運行測量非確定性，監控許多代理的行為級別可靠性，並通過識別高影響的重複失敗模式來優先處理修復。

優點

通過隔離沙盒中的真實後端服務進行高保真評估，非常適合長時間運行、有狀態的代理。

強大的可重現性（種子重放）和從生產失敗中快速調試/迭代。

基於行為的監控和聚類有助於團隊找到根本原因並防止重複回歸。

從事件 → 重放 → 提升的防護欄 → CI 門控的直接路徑，隨著時間的推移實現複合可靠性。

缺點

對於簡單的單調用工作流程，可能比提示級別的評估工具更重。

與模擬測試線束相比，使用真實服務進行沙盒化可能會增加設置/操作複雜性。

最佳價值取決於擁有生產代理流量/軌跡以進行監控並轉換為行為。

如何使用 Polarity

1) 決定 Polarity 是否適合: 當您擁有長時間運行、複雜、多步驟的 AI 代理程式，並且需要能夠捕捉跨真實後端服務（例如 Postgres/Redis/S3/內部 API）的有狀態故障，而不僅僅是提示級問題的評估基礎設施時，請使用 Polarity。

2) 為您的環境建立工作區: 設定工作區（例如，生產、預演、實驗）以組織代理程式、專案、隊友、儀表板、警報和存取控制。

3) 使用 Polarity SDK 檢測您的代理程式: 將 Polarity 檢測添加到您的代理程式，以便它將決策串流到 Polarity 進行監控和重播。原始碼中顯示的範例：import polarity as pl; agent = pl.instrument(agent=my_agent, workspace="prod", capture="decisions", sample_rate=1.0)。

4) 在啟用決策捕獲的情況下在生產中運行您的代理程式: 像往常一樣部署，但 Polarity 會捕獲決策級別的數據。Polarity 旨在監控生產中的每個代理程式決策，並在使用者遇到故障模式之前將其浮現。

5) 監控即時決策流和行為級別健康狀況: 使用 Polarity 的生產監控來即時觀察決策，並按代理程式和行為（不僅僅是延遲）追蹤可靠性。配置行為級別監控器和軌跡感知警報，以檢測回歸和重複出現的故障模式。

6) 透過提取追蹤並查找類似事件來調查故障: 當代理程式失敗時，打開追蹤（軌跡）並使用 Polarity 的聚類來查找類似的故障（重複模式/行為），以便您可以更快地識別根本原因。

7) 識別並標記重複出現的故障行為: 使用 Polarity 的行為發現和聚類將決策分組為行為（例如，工具循環檢測器、陳舊上下文漂移、幻覺引用），並了解對使用者和代理程式的影響。

8) 使用種子重現功能在本地重播生產故障: 使用 Polarity 的重播工具在本地重現相同的沙盒（種子重現器），並重新運行完全相同的生產軌跡。原始碼中顯示的範例：uv run plr replay --trace <trace_id> --agent @ examples/agent/agent.toml --diff inline。

9) 將重現的故障提升為行為/防護措施: 將捕獲的故障轉化為具有不變量和禁用規則的可重用行為定義，以便將來檢測並阻止相同的回歸。原始碼顯示了一個可以包含 --promote-to-behavior 的重播流程。

10) 使用提升的行為在 CI 中阻止回歸: 透過針對候選修復（提示/工具/模型更改）重播生產追蹤來運行 CI 回歸測試。將評估提升到 CI 中，以便在已知故障行為再次出現時阻止合併。

11) 使用副本測量非確定性: 配置副本運行以量化非確定性（多次運行相同的任務），並根據行為不變量和禁用規則對結果進行評分。

12) 迭代：發布修復、擴大覆蓋範圍並提高可靠性: 隨著生產中出現新的故障，重複循環：檢測 → 追蹤 → 聚類 → 重播 → 提升為行為 → 在 CI 中門控。隨著時間的推移，Polarity 將檢測到的故障「鎖定」為防護措施，從而提高可靠性。

Polarity 常見問題

Polarity 是為 AI 代理設計的沙盒評估基礎設施。其 Keystone 運行時在隔離的 Docker 沙盒中運行每個代理任務，該沙盒預載了真實的後端服務（例如 Postgres、Redis、S3、內部 API），根據行為不變量和禁用規則對運行進行評分，通過副本測量非確定性，並提供帶有種子重現器的故障，以便在本地重新創建相同的沙盒。

Polarity 影片

与 Polarity 类似的最新 AI 工具

Hapticlabs

Free TrialAI DevOps Assistant No-Code & Low-Code

Hapticlabs 是一個無代碼工具包，使設計師、開發者和研究人員能夠輕鬆設計、原型設計和部署跨設備的沉浸式觸覺交互，無需編碼。

Deployo.ai

Free TrialAI DevOps Assistant AI Code Assistant

Deployo.ai 是一個全面的 AI 部署平台，支持無縫模型部署、監控和擴展，內置道德 AI 框架和跨雲兼容性。

CloudSoul

Free TrialAI DevOps Assistant AI Code Assistant No-Code & Low-Code

CloudSoul 是一款 AI 驅動的 SaaS 平台，通過自然語言對話使用戶能夠即時部署和管理雲端基礎設施，使 AWS 資源管理更加易用和高效。

Devozy.ai

Free TrialAI DevOps Assistant AI Developer Tools AI Project Management

Devozy.ai 是一個由 AI 驅動的開發者自助服務平台，將敏捷項目管理、DevSecOps、多雲基礎設施管理和 IT 服務管理結合為一個統一的解決方案，以加速軟件交付。

类似 Polarity 的热门 AI 工具

A2A Protocol

FreeAI DevOps Assistant AI API Design

A2A (Agent2Agent) Protocol is an open interoperability protocol developed by Google that enables seamless communication and collaboration between AI agents across different frameworks and vendors, regardless of their underlying architecture.