
Polarity
Polarityは、AIエージェント向けのサンドボックス化された評価および監視プラットフォームであり、隔離されたDocker環境で実際のバックエンドサービスを使用してタスクを実行し、不変条件/禁止ルールに対して動作をスコアリングし、レプリカを介して非決定性を測定し、シードベースのリプレイを提供して障害を再現および修正します。
https://polarity.so/?ref=producthunt&utm_source=aipure

製品情報
更新日:2026年05月19日
Polarityとは
Polarityは、本番環境で実行されるAIエージェント、特に実際のサービス間でのステートフルな動作が一般的な障害の原因となる、長時間実行される多段階ワークフローの信頼性を向上させるために設計された評価インフラストラクチャ製品です。Braintrust、LangSmith、Langfuseなどのツールと並んで位置付けられるPolarityは、モックされた依存関係ではなく、現実的なサンドボックス内でエージェントを評価し、プロンプトレベルのチェックだけでなく、軌道レベルの動作に焦点を当てることで差別化を図っています。これにより、チームはエージェントの意思決定をリアルタイムで監視し、障害を迅速にトリアージし、繰り返される問題を回帰を防ぐ耐久性のあるガードレールに変えることができます。
Polarityの主な機能
Polarityは、本番AIエージェント向けの評価、監視、回帰テストプラットフォームであり、実際のバックエンドサービス(例:Postgres、Redis、S3、内部API)を含む隔離されたDockerサンドボックス内でエージェントタスクを実行することを中心に構築されています。エージェントの完全な軌跡をキャプチャし、繰り返される失敗動作を検出し、クラスター化し、行動不変条件と禁止ルールに対して実行をスコアリングし、レプリカ実行を介して非決定性を測定し、シードベースのリプレイを提供してローカルで失敗を再現し、CIでゲートできるガードレールに昇格させて回帰を防ぎます。特に、長期間実行される多段階のステートフルエージェントに有効です。
リアルサービスサンドボックス化された評価ランタイム(Keystone): 各エージェントタスクを、実際の依存関係(データベース、キャッシュ、オブジェクトストレージ、内部API)がプリロードされた隔離されたDockerサンドボックスで実行し、モック環境では見逃されがちな失敗モードを表面化させます。
行動不変条件と禁止ルールスコアリング: 明示的な信頼性および安全性制約(不変条件)と許可されていないパターン(禁止ルール)に対してエージェントの実行を評価し、定性的な「エージェント品質」を強制可能なチェックに変換します。
本番決定監視とライブストリーム: エージェントを計測して決定/軌跡をPolarityにストリーミングし、常時監視、行動レベルの可視性、および失敗発生時の迅速なトリアージを可能にします。
行動の発見、クラスタリング、および再発アラート: 決定を繰り返される行動(例:ツールループ、古いコンテキストドリフト、幻覚的な引用、プロンプトインジェクションの追跡)にクラスター化し、既知の失敗モードが再発したときにチームにアラートを送信します。
シード付きリプレイとワンコマンド再現: 各失敗にシード再現ツールを同梱し、同一のサンドボックスをローカルで再作成することで、決定論的なデバッグとプロンプト、ツール、またはモデルのより迅速なイテレーションを可能にします。
実際の軌跡からのCI回帰ゲーティング: 捕捉された失敗を行動/ガードレールに昇格させ、CIで回帰テストとして実行できるようにし、エージェントが既知の失敗パターンを再導入したときにマージをブロックします。
Polarityのユースケース
カスタマーサポートエージェント(eコマース/SaaS): 払い戻し/注文検索ワークフローにおけるツール呼び出しループ、古いコンテキストエラー、および安全でないアクションを検出し、防止します。実際のインシデントをリプレイし、デプロイ前にCIで修正をゲートします。
ソフトウェアエンジニアリングエージェント(開発ツール/IT): サンドボックスでコード編集エージェントを評価し、「ワークスペースエスケープ」や安全でないファイル/システムアクセス動作を捕捉します。失敗を決定論的に再現し、ガードレールを確立します。
フィンテックおよび規制されたワークフロー: 不変条件/禁止ルールスコアリングを使用して、コンプライアンス指向の動作を強制し、本番環境のドリフトを監視し、エージェントの決定の監査に適した再現性を維持します。
ヘルスケアオペレーションアシスタント: 実際のサービスサンドボックスに対してステートフルな多段階エージェントを実行し、信頼性の回帰(ハンドオフの失敗、不完全なツールシーケンス)を監視し、行動ゲーティングを通じて安全性を向上させます。
RAG/研究および知識エージェント: ツール出力における幻覚的な引用やプロンプトインジェクションの追跡を検出します。繰り返される検索/根拠付けの失敗をクラスター化し、それらを自動回帰テストに変換します。
エンタープライズエージェントプラットフォーム(マルチエージェントシステム): レプリカ実行で非決定性を測定し、多くのエージェントにわたる行動レベルの信頼性を監視し、影響の大きい繰り返される失敗パターンを特定することで修正を優先します。
メリット
隔離されたサンドボックス内の実際のバックエンドサービスを介した高忠実度評価は、長期間実行されるステートフルエージェントに適しています。
強力な再現性(シードリプレイ)と、本番環境の失敗からの迅速なデバッグ/イテレーション。
行動ベースの監視とクラスタリングは、チームが根本原因を見つけ、繰り返される回帰を防ぐのに役立ちます。
インシデント → リプレイ → 昇格されたガードレール → CIゲートへの直接的なパスにより、時間の経過とともに信頼性が向上します。
デメリット
単純な単一呼び出しワークフローの場合、プロンプトレベルの評価ツールよりも重い場合があります。
実際のサービスを使用したサンドボックス化は、モックされたテストハーネスと比較してセットアップ/運用が複雑になる可能性があります。
最大の価値は、監視して行動に変換するための本番エージェントのトラフィック/軌跡があるかどうかにかかっています。
Polarityの使い方
1) Polarityが適切かどうかを判断する: 長時間実行される複雑な多段階AIエージェントがあり、プロンプトレベルの問題だけでなく、実際のバックエンドサービス(例:Postgres/Redis/S3/内部API)全体でステートフルな障害を検出する評価インフラストラクチャが必要な場合にPolarityを使用します。
2) 環境のワークスペースを作成する: エージェント、プロジェクト、チームメイト、ダッシュボード、アラート、アクセス制御を整理するためにワークスペース(例:本番、ステージング、実験)を設定します。
3) Polarity SDKでエージェントを計測する: Polarityの計測をエージェントに追加して、監視とリプレイのために意思決定をPolarityにストリーミングします。ソースに示されている例:import polarity as pl; agent = pl.instrument(agent=my_agent, workspace="prod", capture="decisions", sample_rate=1.0)。
4) 意思決定キャプチャを有効にして本番環境でエージェントを実行する: 通常どおりデプロイしますが、Polarityが意思決定レベルのデータをキャプチャするようにします。Polarityは、本番環境のすべてのエージェントの意思決定を監視し、ユーザーが遭遇する前に障害パターンを表面化するように設計されています。
5) ライブの意思決定ストリームと行動レベルの健全性を監視する: Polarityの本番監視を使用して、意思決定をリアルタイムで監視し、エージェントごと、行動ごとに信頼性を追跡します(レイテンシだけでなく)。行動レベルのモニターと軌道認識アラートを設定して、回帰と繰り返される障害モードを検出します。
6) トレースをプルし、類似のインシデントを見つけて障害を調査する: エージェントが失敗した場合、トレース(軌道)を開き、Polarityのクラスタリングを使用して類似の障害(繰り返されるパターン/動作)を見つけ、根本原因をより迅速に特定できるようにします。
7) 繰り返される障害動作を特定し、ラベル付けする: Polarityの動作検出とクラスタリングを使用して、意思決定を動作(例:ツールループ検出器、古いコンテキストドリフト、幻覚引用)にグループ化し、ユーザーとエージェント全体への影響を理解します。
8) シード再現で本番障害をローカルでリプレイする: Polarityのリプレイツールを使用して、同一のサンドボックスをローカルで再現し(シード再現器)、正確な本番軌道を再実行します。ソースに示されている例:uv run plr replay --trace <trace_id> --agent @ examples/agent/agent.toml --diff inline。
9) 再現された障害を動作/ガードレールに昇格させる: キャプチャされた障害を、不変条件と禁止ルールを含む再利用可能な動作定義に変換し、将来同じ回帰が検出され、ブロックされるようにします。ソースには、--promote-to-behaviorを含めることができるリプレイフローが示されています。
10) 昇格された動作を使用してCIで回帰をゲートする: 候補の修正(プロンプト/ツール/モデルの変更)に対して本番トレースをリプレイすることで、CI回帰テストを実行します。既知の障害動作が再発した場合にマージがブロックされるように、評価をCIに昇格させます。
11) レプリカで非決定性を測定する: レプリカ実行を設定して非決定性(同じタスクを複数回実行する)を定量化し、行動不変条件と禁止ルールに対して結果をスコアリングします。
12) 繰り返し:修正をリリースし、カバレッジを拡大し、信頼性を高める: 本番環境で新しい障害が発生するたびに、ループを繰り返します:検出 → トレース → クラスター → リプレイ → 動作に昇格 → CIでゲート。時間の経過とともに、Polarityは検出された障害をガードレールとして「ロックイン」し、信頼性が高まります。
Polarityのよくある質問
Polarityは、AIエージェント向けのサンドボックス化された評価インフラストラクチャです。そのKeystoneランタイムは、各エージェントタスクを、実際のバックエンドサービス(Postgres、Redis、S3、内部APIなど)がプリロードされた隔離されたDockerサンドボックス内で実行し、行動不変条件と禁止ルールに対して実行をスコアリングし、レプリカを介して非決定性を測定し、シードリプロデューサーとともに障害を出荷して、同一のサンドボックスをローカルで再作成します。











