Polarity 是一個用於 AI 代理程式的沙盒評估和監控平台,它在具有真實後端服務的隔離 Docker 環境中運行任務,根據不變量/禁用規則評估行為,透過副本測量非確定性,並提供基於種子的重播以重現和修復故障。
https://polarity.so/?ref=producthunt&utm_source=aipure
Polarity

產品資訊

更新時間:2026年05月19日

什麼是 Polarity

Polarity 是一個評估基礎設施產品,旨在提高生產中運行的 AI 代理程式的可靠性,特別是對於長時間運行、多步驟的工作流程,其中跨真實服務的有狀態行為是常見的故障來源。Polarity 與 Braintrust、LangSmith 和 Langfuse 等工具並列,透過在真實沙盒(而非模擬依賴項)中評估代理程式,並專注於軌跡級行為而非僅限提示級檢查來區分自己。它幫助團隊即時監控代理程式決策,快速分類故障,並將重複出現的問題轉化為持久的防護措施,以防止回歸。

Polarity 的主要功能

Polarity 是一個用於生產 AI 代理的評估、監控和回歸測試平台,其核心是在隔離的 Docker 沙盒中運行代理任務,這些沙盒包含真實的後端服務(例如 Postgres、Redis、S3、內部 API)。它捕捉完整的代理軌跡,檢測並聚類重複的失敗行為,根據行為不變量和禁用規則對運行進行評分,通過副本運行測量非確定性,並提供基於種子的重放以在本地重現失敗並將其提升為防護欄,這些防護欄可以在 CI 中進行門控以防止回歸——特別是對於長時間運行、多步驟、有狀態的代理。
真實服務沙盒評估運行時 (Keystone): 在隔離的 Docker 沙盒中運行每個代理任務,預載真實依賴項(資料庫、緩存、對象存儲、內部 API),以揭示模擬環境經常遺漏的失敗模式。
行為不變量和禁用規則評分: 根據明確的可靠性和安全約束(不變量)和不允許的模式(禁用規則)評估代理運行,將定性的「代理質量」轉化為可執行的檢查。
生產決策監控和即時串流: 儀器代理以將決策/軌跡串流到 Polarity,實現始終在線監控、行為級別可見性,並在發生故障時快速分類。
行為發現、聚類和重複警報: 將決策聚類為重複行為(例如,工具循環、過時上下文漂移、幻覺引用、提示注入),並在已知失敗模式再次出現時提醒團隊。
種子重放和一鍵重現: 每個失敗都附帶一個種子重現器,可在本地重新創建相同的沙盒,實現確定性調試和更快地迭代提示、工具或模型。
來自真實軌跡的 CI 回歸門控: 將捕獲的失敗提升為可在 CI 中作為回歸測試運行的行為/防護欄,當代理重新引入已知失敗模式時阻止合併。

Polarity 的使用案例

客戶支援代理(電子商務/SaaS): 檢測並防止工具調用循環、過時上下文錯誤以及退款/訂單查詢工作流程中的不安全操作;重放真實事件並在部署前在 CI 中門控修復。
軟體工程代理(開發工具/IT): 在沙盒中評估代碼編輯代理,並捕捉「工作區逃逸」或不安全的文件/系統訪問行為;確定性地重現失敗並鎖定防護欄。
金融科技和受監管的工作流程: 使用不變量/禁用規則評分來強制執行合規導向的行為,監控生產中的漂移,並保持代理決策的審計友好可重現性。
醫療保健營運助理: 針對真實服務沙盒運行有狀態、多步驟代理,並監控可靠性回歸(交接失敗、不完整的工具序列),通過行為門控提高安全性。
RAG/研究和知識代理: 檢測工具輸出中的幻覺引用和提示注入;聚類重複的檢索/基礎失敗並將其轉換為自動化回歸測試。
企業代理平台(多代理系統): 通過副本運行測量非確定性,監控許多代理的行為級別可靠性,並通過識別高影響的重複失敗模式來優先處理修復。

優點

通過隔離沙盒中的真實後端服務進行高保真評估,非常適合長時間運行、有狀態的代理。
強大的可重現性(種子重放)和從生產失敗中快速調試/迭代。
基於行為的監控和聚類有助於團隊找到根本原因並防止重複回歸。
從事件 → 重放 → 提升的防護欄 → CI 門控的直接路徑,隨著時間的推移實現複合可靠性。

缺點

對於簡單的單調用工作流程,可能比提示級別的評估工具更重。
與模擬測試線束相比,使用真實服務進行沙盒化可能會增加設置/操作複雜性。
最佳價值取決於擁有生產代理流量/軌跡以進行監控並轉換為行為。

如何使用 Polarity

1) 決定 Polarity 是否適合: 當您擁有長時間運行、複雜、多步驟的 AI 代理程式,並且需要能夠捕捉跨真實後端服務(例如 Postgres/Redis/S3/內部 API)的有狀態故障,而不僅僅是提示級問題的評估基礎設施時,請使用 Polarity。
2) 為您的環境建立工作區: 設定工作區(例如,生產、預演、實驗)以組織代理程式、專案、隊友、儀表板、警報和存取控制。
3) 使用 Polarity SDK 檢測您的代理程式: 將 Polarity 檢測添加到您的代理程式,以便它將決策串流到 Polarity 進行監控和重播。原始碼中顯示的範例:import polarity as pl; agent = pl.instrument(agent=my_agent, workspace="prod", capture="decisions", sample_rate=1.0)。
4) 在啟用決策捕獲的情況下在生產中運行您的代理程式: 像往常一樣部署,但 Polarity 會捕獲決策級別的數據。Polarity 旨在監控生產中的每個代理程式決策,並在使用者遇到故障模式之前將其浮現。
5) 監控即時決策流和行為級別健康狀況: 使用 Polarity 的生產監控來即時觀察決策,並按代理程式和行為(不僅僅是延遲)追蹤可靠性。配置行為級別監控器和軌跡感知警報,以檢測回歸和重複出現的故障模式。
6) 透過提取追蹤並查找類似事件來調查故障: 當代理程式失敗時,打開追蹤(軌跡)並使用 Polarity 的聚類來查找類似的故障(重複模式/行為),以便您可以更快地識別根本原因。
7) 識別並標記重複出現的故障行為: 使用 Polarity 的行為發現和聚類將決策分組為行為(例如,工具循環檢測器、陳舊上下文漂移、幻覺引用),並了解對使用者和代理程式的影響。
8) 使用種子重現功能在本地重播生產故障: 使用 Polarity 的重播工具在本地重現相同的沙盒(種子重現器),並重新運行完全相同的生產軌跡。原始碼中顯示的範例:uv run plr replay --trace <trace_id> --agent @ examples/agent/agent.toml --diff inline。
9) 將重現的故障提升為行為/防護措施: 將捕獲的故障轉化為具有不變量和禁用規則的可重用行為定義,以便將來檢測並阻止相同的回歸。原始碼顯示了一個可以包含 --promote-to-behavior 的重播流程。
10) 使用提升的行為在 CI 中阻止回歸: 透過針對候選修復(提示/工具/模型更改)重播生產追蹤來運行 CI 回歸測試。將評估提升到 CI 中,以便在已知故障行為再次出現時阻止合併。
11) 使用副本測量非確定性: 配置副本運行以量化非確定性(多次運行相同的任務),並根據行為不變量和禁用規則對結果進行評分。
12) 迭代:發布修復、擴大覆蓋範圍並提高可靠性: 隨著生產中出現新的故障,重複循環:檢測 → 追蹤 → 聚類 → 重播 → 提升為行為 → 在 CI 中門控。隨著時間的推移,Polarity 將檢測到的故障「鎖定」為防護措施,從而提高可靠性。

Polarity 常見問題

Polarity 是為 AI 代理設計的沙盒評估基礎設施。其 Keystone 運行時在隔離的 Docker 沙盒中運行每個代理任務,該沙盒預載了真實的後端服務(例如 Postgres、Redis、S3、內部 API),根據行為不變量和禁用規則對運行進行評分,通過副本測量非確定性,並提供帶有種子重現器的故障,以便在本地重新創建相同的沙盒。

与 Polarity 类似的最新 AI 工具

Hapticlabs
Hapticlabs
Hapticlabs 是一個無代碼工具包,使設計師、開發者和研究人員能夠輕鬆設計、原型設計和部署跨設備的沉浸式觸覺交互,無需編碼。
Deployo.ai
Deployo.ai
Deployo.ai 是一個全面的 AI 部署平台,支持無縫模型部署、監控和擴展,內置道德 AI 框架和跨雲兼容性。
CloudSoul
CloudSoul
CloudSoul 是一款 AI 驅動的 SaaS 平台,通過自然語言對話使用戶能夠即時部署和管理雲端基礎設施,使 AWS 資源管理更加易用和高效。
Devozy.ai
Devozy.ai
Devozy.ai 是一個由 AI 驅動的開發者自助服務平台,將敏捷項目管理、DevSecOps、多雲基礎設施管理和 IT 服務管理結合為一個統一的解決方案,以加速軟件交付。