
Retrace
Retrace 是一個用於 AI 代理的執行重播引擎,它記錄每個 LLM/工具調用,讓您可以從確切的損壞步驟重播和分叉故障,並透過評估門、護欄和品質檢測來驗證修復。
https://retraceai.tech/?ref=producthunt&utm_source=aipure

產品資訊
更新時間:2026年07月03日
什麼是 Retrace
Retrace 是一個針對 AI 代理的可靠性和調試平台,定位為「AI 代理行為的 CI」。它捕獲完整的端到端代理執行——LLM 調用、工具調用、錯誤、延遲和成本——因此團隊可以檢查生產中發生了什麼,並將故障轉化為可重複的回歸測試。Retrace 旨在與框架無關,可與常見的代理堆棧(例如 LangChain、CrewAI、LlamaIndex)配合使用,並支援 Python 和 TypeScript,並為主要的模型提供商(OpenAI、Anthropic 和 Google Gemini)提供自動檢測。
Retrace 的主要功能
Retrace 是一個執行重播引擎和可靠性平台,專為 AI 代理而設計。它記錄每次 LLM 呼叫、工具調用、成本、延遲和錯誤,以便團隊可以重播確切的執行、從錯誤發生的步驟分叉,並在發布前驗證修復。除了可觀察性之外,它還增加了閉環工作流程——記錄 → 重播/分叉 → 修復 → 證明——以及自動故障檢測(例如,基礎性差距、漂移、聚類)、運行時強制執行(預算、循環/步驟限制、審批門檻)和 CI 評估門檻,將實際生產故障轉化為回歸測試。它通過 Python 或 TypeScript 中的輕量級儀器在常見的 LLM 提供商和代理框架中工作。
記錄完整的代理執行: 輕量級裝飾器/SDK 捕獲每個模型呼叫、工具呼叫、錯誤、時間和成本,將每次運行轉化為您可以檢查並重新用作回歸工件的追蹤。
從任何失敗的步驟重播和分叉: 重新運行確切的記錄執行,或從出錯的範圍分叉,編輯提示/工具輸入/模型,然後級聯重播以查看軌跡如何變化。
證明修復驗證: 進行更改後,Retrace 可以針對原始失敗的追蹤重新運行,並返回判斷(例如,已修復/已改進/已退化/未更改),以在發布前驗證更正。
自動故障檢測和分析: 標記常見的代理故障模式,例如基礎性/忠實度差距、統計漂移、故障集群和多代理故障類型,以解釋運行失敗的原因,而不僅僅是它失敗了。
運行時防護措施和強制執行: 諸如成本預算、循環檢測、步驟限制、延遲上限和預呼叫網關(等待批准)等策略可以停止或阻止危險操作,以防止失控行為和意外支出。
用於代理行為的 CI 評估門檻: 在 CI/CD 中運行評估,並在行為相對於基準退化時使構建失敗,從而為提示、工具和模型升級啟用「行為回歸測試」。
Retrace 的使用案例
調試生產代理事件: 當代理在生產中失敗時,工程師可以重播確切的運行,在真正的根本原因步驟(而非最終症狀)處分叉,並在重新部署前通過「證明修復」來驗證修復。
發布更安全的工具使用代理 (DevOps/SRE): 對於查詢日誌/指標或觸發操作的代理,防護措施(預算、循環限制、審批門檻)可降低級聯故障或代價高昂的失控執行的風險。
提示/工具/模型更改的回歸測試: 迭代提示、交換工具或升級模型的團隊可以使用記錄的故障和評估門檻來確保多步驟行為不會在發布之間悄然退化。
多代理工作流程可靠性(研究 → 寫作管道): 在包含規劃器/研究員/寫作代理的系統中,Retrace 有助於可視化代理拓撲、識別跨代理交接故障,並重播/分叉以測試改進的協調。
企業助理的質量和合規性監控: 基礎性檢測和可追溯性支持在受監管或高風險環境(例如金融、醫療保健、法律)中對助理進行審計和質量控制,在這些環境中必須及早發現幻覺和不安全行為。
優點
閉環調試:重播、分叉和驗證修復,而不僅僅是檢查日誌/指標。
與框架和提供商無關的方法,具有輕量級儀器(Python/TypeScript)並支持常見的 LLM 提供商。
運行時防護措施可以防止代價高昂或不安全的代理行為(預算、循環檢測、批准門控)。
CI 評估門檻將實際故障轉化為行為回歸測試,幫助團隊更有信心地發布。
缺點
某些功能依賴於提供商/關鍵支持(例如,某些重播/評估流程可能在特定提供商中更成熟)。
有意義的評估門檻需要周到的評估設計和閾值;對於複雜的代理,設置可能不簡單。
記錄詳細追蹤可能會引發隱私/合規性考慮,需要在敏感環境中仔細編輯和數據治理。
如何使用 Retrace
1) 建立帳戶: 前往 https://retraceai.tech/ 並註冊(支援 GitHub 登入)。無需信用卡即可開始使用。
2) 安裝 Retrace SDK: 將 Retrace SDK 添加到您的代理專案中(Python 或 TypeScript)。Retrace 與框架無關,可與 LangChain、CrewAI、LlamaIndex、Vercel AI SDK、AutoGen 等配合使用。
3) 設定您的 API 金鑰: 在您的程式碼中,使用您的工作區 API 金鑰設定 Retrace(網站上顯示的範例使用 `retrace.configure(api_key="rt_...")`)。這會將您的應用程式連接到 Retrace,以便追蹤可以串流到儀表板。
4) 將錄製裝飾器添加到您的代理入口點: 使用文件中顯示的裝飾器包裝您的主要代理函數:`@retrace.record(name="my-agent")`。這個單一的裝飾器捕獲了每個 LLM 調用、工具調用、成本、時間和錯誤。
5) 正常運行您的代理: 像往常一樣執行您的代理。Retrace 會自動捕獲對 OpenAI、Anthropic 和 Gemini 的調用,並將工具調用和故障記錄為追蹤時間線中的跨度。
6) 觀看追蹤即時串流(可選的 CLI 尾部): 使用 CLI 追蹤即時追蹤(網站上的範例:`retrace traces tail`)。您將看到意圖分類、上下文獲取和響應生成等步驟,以及時間和成本。
7) 在儀表板中檢查追蹤: 打開 Retrace UI 以擦除時間線,打開任何跨度,並查看模型/工具調用的完整序列。這有助於您找到運行實際出錯的地方(通常比最終錯誤更早)。
8) 重播失敗的運行: 重新運行任何記錄的追蹤以重現確切的行為。Retrace 的設計使得生產故障成為您可以重新運行的永久回歸測試。
9) 從確切的失敗跨度分叉: 選擇運行分歧或失敗的跨度,然後創建一個分叉以從該點分支(顯示的範例命令:`retrace forks create --trace <id> --span <id> --input "..."`)。
10) 編輯損壞的步驟(提示/工具輸入/模型)並級聯重播: 在分叉中,更改導致故障的原因(例如,調整提示、修復工具輸入或交換模型),然後重播分叉(範例:`retrace forks replay <id> --wait`)。Retrace 從分叉點向前級聯重播,以便下游步驟使用更新的上下文。
11) 透過判決證明修復: 運行內建驗證以將修復的分叉與原始失敗的運行進行比較並獲得判決(範例:`retrace traces verify-fix <id>`),報告為改進/退化/未更改(並在網站範例中顯示為「修復已驗證」)。
12) 添加運行時護欄(推薦): 配置護欄/斷路器以停止超出預算、循環時間過長、上下文溢出或超出延遲上限的運行。Retrace 可以發出 HALT 以在成本累積或觸發不良行為之前停止失控行為。
13) 啟用檢測信號(推薦): 使用 Retrace 的檢測功能自動標記基礎差距、漂移、故障集群和 MAST 故障類型,以便您了解運行失敗的原因(而不僅僅是它失敗了)。
14) (可選) 添加您的模型提供商金鑰以進行伺服器端重播和評估門: 在 Retrace 儀表板設定中,添加您的提供商金鑰(網站突出顯示 Google/Gemini 以進行評估門 + 重播)。Retrace 在保存時驗證金鑰,在靜態時加密,僅顯示最後 4 個字元,並使用它,以便重播/評估令牌計費到您的提供商帳戶。
15) 建立評估和資料集以進行回歸測試: 設定評估(以及可選的資料集和自動評估規則),以便您可以根據記錄的運行評估代理行為,並與基準(「黃金」)行為進行比較。
16) 在 CI 中使用評估門限制 PR: 添加一個 CI 步驟,運行 Retrace 的評估門,以便在行為退化時構建失敗。網站上的 GitHub Actions 步驟範例:`retrace eval gate --evaluation $EVAL_ID --trace $TRACE_ID --threshold 0.8`,其中 `RETRACE_API_KEY` 在秘密中;該命令在失敗時以代碼 1 退出。
17) 使用閉環工作流程迭代: 重複可靠性循環:記錄實際故障 → 重播它 → 從失敗步驟分叉 → 修復 → 證明修復 → 將其添加到評估門,以便相同的回歸更難再次發布。
Retrace 常見問題
Retrace 是一個用於 AI 代理的執行重播引擎,它會記錄每個 LLM 呼叫、工具調用和錯誤,因此您可以在發布前重播運行、從失敗的步驟分叉並驗證修復。











