Retraceは、AIエージェント向けの実行リプレイエンジンであり、すべてのLLM/ツール呼び出しを記録し、正確に破損したステップから障害をリプレイおよびフォークし、評価ゲート、ガードレール、および品質検出で修正を検証します。
https://retraceai.tech/?ref=producthunt&utm_source=aipure
Retrace

製品情報

更新日:2026年07月03日

Retraceとは

Retraceは、AIエージェント向けの信頼性およびデバッグプラットフォームであり、「AIエージェントの動作のためのCI」と位置付けられています。LLM呼び出し、ツール呼び出し、エラー、遅延、コストなど、エージェントの完全なエンドツーエンドの実行をキャプチャするため、チームは本番環境で何が起こったかを調査し、障害を再現可能な回帰テストに変えることができます。フレームワークに依存しないように設計されており、Retraceは一般的なエージェントスタック(例:LangChain、CrewAI、LlamaIndex)と連携し、PythonとTypeScriptをサポートし、主要なモデルプロバイダー(OpenAI、Anthropic、Google Gemini)の自動計測機能を備えています。

Retraceの主な機能

Retraceは、AIエージェント向けの実行リプレイエンジンおよび信頼性プラットフォームです。すべてのLLM呼び出し、ツール呼び出し、コスト、レイテンシ、エラーを記録するため、チームは正確な実行をリプレイし、障害が発生したステップからフォークし、出荷前に修正を検証できます。可観測性に加えて、記録→リプレイ/フォーク→修正→証明というクローズドループワークフローと、自動化された障害検出(例:根拠の欠如、ドリフト、クラスタリング)、ランタイム強制(予算、ループ/ステップ制限、承認ゲート)、および実際の運用上の障害を回帰テストに変えるCI評価ゲートを追加します。PythonまたはTypeScriptの軽量なインストゥルメンテーションを介して、一般的なLLMプロバイダーおよびエージェントフレームワークで動作します。
完全なエージェント実行を記録: 軽量なデコレータ/SDKは、すべてのモデル呼び出し、ツール呼び出し、エラー、タイミング、コストをキャプチャし、各実行を検査および回帰アーティファクトとして再利用できるトレースに変えます。
任意の失敗したステップからリプレイ&フォーク: 正確に記録された実行を再実行するか、問題が発生したスパンからフォークし、プロンプト/ツール入力/モデルを編集し、カスケードリプレイをフォワードして軌道がどのように変化するかを確認します。
修正検証の証明: 変更を行った後、Retraceは元の失敗したトレースに対して再実行し、リリース前に修正を検証するための判定(例:修正済み/改善済み/退行済み/変更なし)を返します。
自動障害検出と分析: 根拠/忠実性の欠如、統計的ドリフト、障害クラスター、マルチエージェント障害タイプなど、一般的なエージェントの障害パターンにフラグを立て、実行が失敗した理由を説明します。
ランタイムガードレールと強制: コスト予算、ループ検出、ステップ制限、レイテンシ上限、事前呼び出しゲートウェイ(承認保留)などのポリシーは、暴走動作や予期せぬ支出を防ぐために、リスクのあるアクションを停止またはブロックできます。
エージェント動作のためのCI評価ゲート: CI/CDで評価を実行し、動作がベースラインに対して退行した場合にビルドを失敗させ、プロンプト、ツール、モデルのアップグレードに対する「行動回帰テスト」を可能にします。

Retraceのユースケース

本番エージェントインシデントのデバッグ: エージェントが本番環境で失敗した場合、エンジニアは正確な実行をリプレイし、真の根本原因ステップ(最終的な症状ではない)でフォークし、再デプロイする前に修正を証明して検証できます。
より安全なツール使用エージェントの出荷(DevOps/SRE): ログ/メトリクスを照会したり、運用アクションをトリガーしたりするエージェントの場合、ガードレール(予算、ループ制限、承認ゲート)は、カスケード障害や高価な暴走実行のリスクを軽減します。
プロンプト/ツール/モデル変更の回帰テスト: プロンプトを反復したり、ツールを交換したり、モデルをアップグレードしたりするチームは、記録された障害と評価ゲートを使用して、マルチステップの動作がリリース間で静かに劣化しないことを確認できます。
マルチエージェントワークフローの信頼性(研究→執筆パイプライン): プランナー/リサーチャー/ライターエージェントを含むシステムでは、Retraceはエージェントのトポロジを視覚化し、エージェント間のハンドオフ障害を特定し、リプレイ/フォークして改善された調整をテストするのに役立ちます。
エンタープライズアシスタントの品質およびコンプライアンス監視: 根拠検出とトレーサビリティは、規制されたまたは高リスクの状況(例:金融、医療、法律)におけるアシスタントの監査と品質管理をサポートし、幻覚や安全でないアクションを早期に捕捉する必要があります。

メリット

クローズドループデバッグ:ログ/メトリクスを検査するだけでなく、修正をリプレイ、フォーク、検証します。
軽量なインストゥルメンテーション(Python/TypeScript)と一般的なLLMプロバイダーのサポートを備えたフレームワークおよびプロバイダーに依存しないアプローチ。
ランタイムガードレールは、高価または安全でないエージェントの動作(予算、ループ検出、承認ゲート)を防ぐことができます。
CI評価ゲートは、実際の障害を行動回帰テストに変換し、チームがより自信を持って出荷できるようにします。

デメリット

一部の機能はプロバイダー/キーのサポートに依存します(例:特定のプロバイダーでは、特定のリプレイ/評価フローがより成熟している場合があります)。
意味のある評価ゲートには、慎重な評価設計と閾値が必要です。複雑なエージェントの場合、セットアップは簡単ではありません。
詳細なトレースの記録は、プライバシー/コンプライアンスの考慮事項を引き起こす可能性があり、機密性の高い環境では慎重な編集とデータガバナンスが必要です。

Retraceの使い方

1) アカウントを作成する: https://retraceai.tech/ にアクセスしてサインアップします(GitHubサインインがサポートされています)。開始にクレジットカードは不要です。
2) Retrace SDKをインストールする: Retrace SDKをエージェントプロジェクト(PythonまたはTypeScript)に追加します。Retraceはフレームワークに依存せず、LangChain、CrewAI、LlamaIndex、Vercel AI SDK、AutoGenなどと連携します。
3) APIキーを設定する: コード内で、ワークスペースのAPIキーを使用してRetraceを設定します(サイトに示されている例では `retrace.configure(api_key="rt_...")` を使用しています)。これにより、アプリがRetraceに接続され、トレースがダッシュボードにストリーミングされます。
4) エージェントのエントリポイントに記録デコレータを追加する: メインのエージェント関数をドキュメントに示されているデコレータでラップします: `@retrace.record(name="my-agent")`。この単一のデコレータが、すべてのLLM呼び出し、ツール呼び出し、コスト、タイミング、およびエラーをキャプチャします。
5) エージェントを通常どおり実行する: 通常どおりエージェントを実行します。Retraceは、OpenAI、Anthropic、Geminiへの呼び出しを自動的にキャプチャし、ツール呼び出しと障害をトレースタイムラインのスパンとして記録します。
6) トレースのライブストリームを監視する(CLIテールはオプション): CLIを使用してライブトレースをテールします(サイトの例: `retrace traces tail`)。意図分類、コンテキストフェッチ、応答生成などのステップが、タイミングとコストとともに表示されます。
7) ダッシュボードでトレースを検査する: Retrace UIを開いてタイムラインをスクラブし、任意のスパンを開いて、モデル/ツール呼び出しの完全なシーケンスを確認します。これにより、実行が実際にどこで間違っていたか(多くの場合、最終的なエラーよりも早い段階)を見つけるのに役立ちます。
8) 失敗した実行をリプレイする: 記録されたトレースを再実行して、正確な動作を再現します。Retraceは、本番環境での障害が再実行可能な永続的な回帰テストになるように設計されています。
9) 正確な失敗スパンからフォークする: 実行が分岐または失敗したスパンを選択し、その時点から分岐するフォークを作成します(表示されているコマンド例: `retrace forks create --trace <id> --span <id> --input "..."`)。
10) 破損したステップ(プロンプト/ツール入力/モデル)を編集し、カスケードリプレイする: フォークで、障害の原因となったものを変更し(例:プロンプトを調整する、ツール入力を修正する、モデルを交換する)、フォークをリプレイします(例:`retrace forks replay <id> --wait`)。Retraceは、フォークポイントから前方へカスケードリプレイするため、下流のステップは更新されたコンテキストを使用します。
11) 判定で修正を証明する: 組み込みの検証を実行して、修正されたフォークを元の失敗した実行と比較し、判定(例:`retrace traces verify-fix <id>`)を取得します。これは改善/退行/変更なしとして報告され(サイトの例では「fix verified」として表示されます)。
12) ランタイムガードレールを追加する(推奨): 予算を超過する、ループが長すぎる、コンテキストがオーバーフローする、または遅延上限を超える実行を停止するためのガードレール/サーキットブレーカーを設定します。Retraceは、コストがかさむ前や悪いアクションがトリガーされる前に、暴走する動作を停止するためにHALTを発行できます。
13) 検出信号を有効にする(推奨): Retraceの検出機能を使用して、グラウンデッドネスのギャップ、ドリフト、障害クラスター、およびMAST障害タイプを自動的にフラグ付けし、実行が失敗した理由(単に失敗しただけでなく)を把握できるようにします。
14) (オプション) サーバーサイドのリプレイと評価ゲートのためにモデルプロバイダーキーを追加する: Retraceダッシュボードの[設定]で、プロバイダーキーを追加します(サイトでは評価ゲートとリプレイのためにGoogle/Geminiが強調されています)。Retraceは保存時にキーを検証し、保存時に暗号化し、最後の4文字のみを表示し、リプレイ/評価トークンがプロバイダーアカウントに請求されるようにそれを使用します。
15) 回帰テストのための評価とデータセットを作成する: 評価(およびオプションでデータセットと自動評価ルール)を設定し、記録された実行におけるエージェントの動作をスコアリングし、ベースライン(「ゴールデン」)動作と比較できるようにします。
16) CIで評価ゲートを使用してPRをゲートする: Retraceの評価ゲートを実行するCIステップを追加し、動作が退行した場合にビルドが失敗するようにします。サイトのGitHub Actionsステップの例: `retrace eval gate --evaluation $EVAL_ID --trace $TRACE_ID --threshold 0.8` とシークレットに `RETRACE_API_KEY`。このコマンドは失敗時にコード1で終了します。
17) クローズドループワークフローを使用して反復する: 信頼性ループを繰り返します: 実際の障害を記録する → それをリプレイする → 失敗したステップからフォークする → 修正する → 修正を証明する → 同じ回帰が再び出荷されにくくなるように評価ゲートに追加する。
18) チームのワークフローに統合する: Retraceを既存のCI/CDパイプライン、アラートシステム、およびデバッグツールに統合して、AIエージェントの信頼性ワークフローを合理化します。

Retraceのよくある質問

Retraceは、AIエージェント向けの実行リプレイエンジンです。すべてのLLM呼び出し、ツール呼び出し、エラーを記録するため、実行をリプレイしたり、失敗したステップからフォークしたり、出荷前に修正を検証したりできます。

Retraceに類似した最新のAIツール

Hapticlabs
Hapticlabs
Hapticlabsは、デザイナー、開発者、研究者がコーディングなしでデバイス間で没入型の触覚インタラクションを簡単に設計、プロトタイピング、展開できるノーコードツールキットです
Deployo.ai
Deployo.ai
Deployo.aiは、シームレスなモデルデプロイメント、モニタリング、およびスケーリングを可能にする包括的なAIデプロイメントプラットフォームであり、組み込みの倫理的AIフレームワークとクロスクラウド互換性を備えています。
CloudSoul
CloudSoul
CloudSoulは、ユーザーが自然言語の会話を通じてクラウドインフラストラクチャを即座に展開および管理できるAI駆動のSaaSプラットフォームであり、AWSリソース管理をよりアクセスしやすく、効率的にします
Devozy.ai
Devozy.ai
Devozy.aiは、アジャイルプロジェクト管理、DevSecOps、マルチクラウドインフラ管理、ITサービス管理を統合したAI駆動の開発者セルフサービスプラットフォームであり、ソフトウェア配信の加速を実現するための統一ソリューションです