
Retrace
Retrace ist eine Ausführungs-Replay-Engine für KI-Agenten, die jeden LLM-/Tool-Aufruf aufzeichnet, es Ihnen ermöglicht, Fehler vom exakt fehlerhaften Schritt aus wiederzugeben und zu forken, und Korrekturen mit Eval Gates, Schutzmechanismen und Qualitätsdetektion überprüft.
https://retraceai.tech/?ref=producthunt&utm_source=aipure

Produktinformationen
Aktualisiert:Jul 3, 2026
Was ist Retrace
Retrace ist eine Zuverlässigkeits- und Debugging-Plattform für KI-Agenten, positioniert als „CI für KI-Agentenverhalten“. Es erfasst vollständige End-to-End-Agentenausführungen – LLM-Aufrufe, Tool-Aufrufe, Fehler, Latenz und Kosten – damit Teams überprüfen können, was in der Produktion passiert ist, und Fehler in wiederholbare Regressionstests umwandeln können. Retrace wurde als Framework-agnostisch konzipiert und funktioniert mit gängigen Agenten-Stacks (z. B. LangChain, CrewAI, LlamaIndex) und unterstützt Python und TypeScript, mit Auto-Instrumentierung für große Modell-Anbieter (OpenAI, Anthropic und Google Gemini).
Hauptfunktionen von Retrace
Retrace ist eine Engine zur Ausführungswiederholung und Zuverlässigkeitsplattform für KI-Agenten, die jeden LLM-Aufruf, jede Tool-Invocation, Kosten, Latenz und Fehler aufzeichnet, sodass Teams exakte Läufe wiederholen, ab dem Schritt, in dem ein Fehler aufgetreten ist, abzweigen und Korrekturen vor der Auslieferung überprüfen können. Über die Beobachtbarkeit hinaus fügt es einen geschlossenen Workflow hinzu – aufzeichnen → wiederholen/abzweigen → beheben → beweisen – sowie automatisierte Fehlererkennung (z. B. Groundedness-Lücken, Drift, Clustering), Laufzeitdurchsetzung (Budgets, Schleifen-/Schrittlimits, Genehmigungsschwellen) und CI-Evaluierungsschwellen, die echte Produktionsfehler in Regressionstests umwandeln. Es funktioniert über gängige LLM-Anbieter und Agenten-Frameworks hinweg über eine leichte Instrumentierung in Python oder TypeScript.
Vollständige Agenten-Ausführungen aufzeichnen: Ein leichter Decorator/SDK erfasst jeden Modellaufruf, Tool-Aufruf, Fehler, Zeitablauf und Kosten und verwandelt jeden Lauf in einen Trace, den Sie inspizieren und als Regression-Artefakt wiederverwenden können.
Wiederholen & Abzweigen von jedem fehlgeschlagenen Schritt: Führen Sie eine exakt aufgezeichnete Ausführung erneut aus oder zweigen Sie von dem Bereich ab, in dem etwas schief gelaufen ist, bearbeiten Sie den Prompt/Tool-Input/Modell und wiederholen Sie kaskadierend, um zu sehen, wie sich die Trajektorie ändert.
Prove-the-fix Verifizierung: Nach einer Änderung kann Retrace den ursprünglichen fehlgeschlagenen Trace erneut ausführen und ein Urteil (z. B. behoben/verbessert/verschlechtert/unverändert) zurückgeben, um die Korrektur vor der Veröffentlichung zu validieren.
Automatisierte Fehlererkennung & -analyse: Markiert gängige Agenten-Fehlermuster wie Groundedness-/Faithfulness-Lücken, statistische Drift, Fehlercluster und Multi-Agenten-Fehlertypen, um zu erklären, warum ein Lauf fehlgeschlagen ist – nicht nur, dass er fehlgeschlagen ist.
Laufzeit-Schutzmaßnahmen und -Durchsetzung: Richtlinien wie Kostenbudgets, Schleifenerkennung, Schrittlimits, Latenz-Obergrenzen und Pre-Call-Gateways (Genehmigungspflicht) können riskante Aktionen anhalten oder blockieren, um außer Kontrolle geratenes Verhalten und unerwartete Ausgaben zu verhindern.
CI-Evaluierungsschwellen für Agentenverhalten: Führt Evaluierungen in CI/CD durch und schlägt Builds fehl, wenn sich das Verhalten gegenüber einer Baseline verschlechtert, was 'Verhaltens-Regressionstests' für Prompts, Tools und Modell-Upgrades ermöglicht.
Anwendungsfälle von Retrace
Debugging von Agenten-Vorfällen in der Produktion: Wenn ein Agent in der Produktion ausfällt, können Ingenieure den genauen Lauf wiederholen, am wahren Ursachenschritt (nicht am letzten Symptom) abzweigen und eine Korrektur mit 'prove-the-fix' validieren, bevor sie erneut bereitgestellt wird.
Sicherere, Tool-nutzende Agenten ausliefern (DevOps/SRE): Für Agenten, die Protokolle/Metriken abfragen oder operative Aktionen auslösen, reduzieren Schutzmaßnahmen (Budgets, Schleifenlimits, Genehmigungsschwellen) das Risiko von Kaskadenfehlern oder kostspieligen außer Kontrolle geratenen Ausführungen.
Regressionstests für Prompt-/Tool-/Modelländerungen: Teams, die Prompts iterieren, Tools austauschen oder Modelle aktualisieren, können aufgezeichnete Fehler und Evaluierungsschwellen nutzen, um sicherzustellen, dass sich das mehrstufige Verhalten über Releases hinweg nicht unbemerkt verschlechtert.
Zuverlässigkeit von Multi-Agenten-Workflows (Forschung → Schreib-Pipelines): In Systemen mit Planer-/Forscher-/Schreiber-Agenten hilft Retrace, die Agenten-Topologie zu visualisieren, Fehler bei der Übergabe zwischen Agenten zu identifizieren und zur Verbesserung der Koordination zu wiederholen/abzuzweigen.
Qualitäts- und Compliance-Überwachung für Unternehmensassistenten: Die Erkennung von Groundedness und die Rückverfolgbarkeit unterstützen Audits und Qualitätskontrollen für Assistenten in regulierten oder risikoreichen Kontexten (z. B. Finanzen, Gesundheitswesen, Recht), wo Halluzinationen und unsichere Aktionen frühzeitig erkannt werden müssen.
Vorteile
Closed-Loop-Debugging: Wiederholen, Abzweigen und Verifizieren von Korrekturen, anstatt nur Protokolle/Metriken zu inspizieren.
Framework- und anbieterunabhängiger Ansatz mit leichter Instrumentierung (Python/TypeScript) und Unterstützung für gängige LLM-Anbieter.
Laufzeit-Schutzmaßnahmen können kostspieliges oder unsicheres Agentenverhalten verhindern (Budgets, Schleifenerkennung, Genehmigungsschwellen).
CI-Evaluierungsschwellen wandeln echte Fehler in Verhaltens-Regressionstests um und helfen Teams, mit mehr Vertrauen auszuliefern.
Nachteile
Einige Funktionen hängen von der Anbieter-/Schlüsselunterstützung ab (z. B. können bestimmte Wiederholungs-/Evaluierungsabläufe für bestimmte Anbieter ausgereifter sein).
Sinnvolle Evaluierungsschwellen erfordern ein durchdachtes Evaluierungsdesign und Schwellenwerte; die Einrichtung kann für komplexe Agenten nicht trivial sein.
Die Aufzeichnung detaillierter Traces kann Datenschutz-/Compliance-Überlegungen aufwerfen, die eine sorgfältige Redaktion und Datenverwaltung in sensiblen Umgebungen erfordern.
Wie verwendet man Retrace
1) Konto erstellen: Gehen Sie zu https://retraceai.tech/ und melden Sie sich an (GitHub-Anmeldung wird unterstützt). Zum Starten ist keine Kreditkarte erforderlich.
2) Retrace SDK installieren: Fügen Sie das Retrace SDK Ihrem Agentenprojekt hinzu (Python oder TypeScript). Retrace ist Framework-agnostisch und funktioniert mit LangChain, CrewAI, LlamaIndex, Vercel AI SDK, AutoGen usw.
3) API-Schlüssel konfigurieren: Konfigurieren Sie in Ihrem Code Retrace mit Ihrem Workspace-API-Schlüssel (das auf der Website gezeigte Beispiel verwendet `retrace.configure(api_key="rt_...")`). Dies verbindet Ihre App mit Retrace, sodass Traces zum Dashboard gestreamt werden können.
4) Den Recording-Decorator zum Agenten-Einstiegspunkt hinzufügen: Umschließen Sie Ihre Hauptagentenfunktion mit dem in der Dokumentation gezeigten Decorator: `@retrace.record(name="my-agent")`. Dieser einzelne Decorator erfasst jeden LLM-Aufruf, Tool-Aufruf, Kosten, Timing und Fehler.
5) Agenten normal ausführen: Führen Sie Ihren Agenten wie gewohnt aus. Retrace erfasst automatisch Aufrufe an OpenAI, Anthropic und Gemini und zeichnet Tool-Aufrufe und Fehler als Spans in einer Trace-Timeline auf.
6) Traces live streamen (optionaler CLI-Tail): Verwenden Sie die CLI, um Live-Traces zu verfolgen (Beispiel von der Website: `retrace traces tail`). Sie sehen Schritte wie Absichtsklassifizierung, Kontextabruf und Antwortgenerierung mit Timings und Kosten.
7) Trace im Dashboard überprüfen: Öffnen Sie die Retrace-Benutzeroberfläche, um die Timeline zu durchsuchen, jeden Span zu öffnen und die vollständige Abfolge der Modell-/Tool-Aufrufe anzuzeigen. Dies hilft Ihnen herauszufinden, wo der Lauf tatsächlich schiefgelaufen ist (oft früher als der endgültige Fehler).
8) Fehlgeschlagenen Lauf wiederholen: Führen Sie jeden aufgezeichneten Trace erneut aus, um das genaue Verhalten zu reproduzieren. Retrace ist so konzipiert, dass ein Produktionsfehler zu einem permanenten Regressionstest wird, den Sie erneut ausführen können.
9) Vom exakt fehlerhaften Span forken: Wählen Sie den Span aus, an dem der Lauf abgewichen oder fehlgeschlagen ist, und erstellen Sie dann einen Fork, um von diesem Punkt aus zu verzweigen (Beispielbefehle: `retrace forks create --trace <id> --span <id> --input "..."`).
10) Den fehlerhaften Schritt bearbeiten (Prompt/Tool-Eingabe/Modell) und Kaskaden-Wiedergabe: Ändern Sie im Fork, was den Fehler verursacht hat (z. B. einen Prompt anpassen, eine Tool-Eingabe korrigieren oder das Modell austauschen), und spielen Sie dann den Fork erneut ab (Beispiel: `retrace forks replay <id> --wait`). Retrace spielt von diesem Fork-Punkt an kaskadierend ab, sodass nachfolgende Schritte den aktualisierten Kontext verwenden.
11) Die Korrektur mit einem Urteil beweisen: Führen Sie die integrierte Verifizierung aus, um den korrigierten Fork mit dem ursprünglichen fehlgeschlagenen Lauf zu vergleichen und ein Urteil zu erhalten (Beispiel: `retrace traces verify-fix <id>`), das als verbessert/verschlechtert/unverändert gemeldet wird (und im Website-Beispiel als „fix verified“ angezeigt wird).
12) Laufzeit-Schutzmechanismen hinzufügen (empfohlen): Konfigurieren Sie Schutzmechanismen/Schutzschalter, um Läufe zu stoppen, die Budgets überschreiten, zu lange schleifen, den Kontext überlaufen oder Latenzgrenzen überschreiten. Retrace kann einen HALT ausgeben, um außer Kontrolle geratenes Verhalten zu stoppen, bevor es Kosten verursacht oder schlechte Aktionen auslöst.
13) Erkennungssignale aktivieren (empfohlen): Verwenden Sie die Erkennungsfunktionen von Retrace, um automatisch Lücken in der Fundierung, Drift, Fehlercluster und MAST-Fehlertypen zu kennzeichnen, damit Sie erfahren, warum ein Lauf fehlgeschlagen ist (nicht nur, dass er fehlgeschlagen ist).
14) (Optional) Fügen Sie Ihren Modell-Anbieterschlüssel für serverseitige Replays und Eval Gates hinzu: Fügen Sie im Retrace-Dashboard unter Einstellungen Ihren Anbieterschlüssel hinzu (die Website hebt Google/Gemini für Eval Gates + Replays hervor). Retrace validiert den Schlüssel beim Speichern, verschlüsselt ihn im Ruhezustand, zeigt nur die letzten 4 Zeichen an und verwendet ihn, damit Replay-/Eval-Token Ihrem Anbieterkonto in Rechnung gestellt werden.
15) Eine Evaluierung und einen Datensatz für Regressionstests erstellen: Richten Sie Evaluierungen (und optional Datensätze und automatische Eval-Regeln) ein, damit Sie das Agentenverhalten über aufgezeichnete Läufe bewerten und mit einem Basisverhalten („Golden“) vergleichen können.
16) PRs mit einem Eval Gate in CI steuern: Fügen Sie einen CI-Schritt hinzu, der Retrace's Eval Gate ausführt, sodass Builds fehlschlagen, wenn sich das Verhalten verschlechtert. Beispiel für einen GitHub Actions-Schritt von der Website: `retrace eval gate --evaluation $EVAL_ID --trace $TRACE_ID --threshold 0.8` mit `RETRACE_API_KEY` in Secrets; der Befehl beendet sich bei Fehler mit Code 1.
17) Iterieren Sie mit dem Closed-Loop-Workflow: Wiederholen Sie die Zuverlässigkeitsschleife: Einen echten Fehler aufzeichnen → Wiederholen → Vom fehlerhaften Schritt forken → Korrigieren → Korrektur beweisen → Zu Eval Gates hinzufügen, damit die gleiche Regression schwerer erneut ausgeliefert werden kann.
Retrace FAQs
Retrace ist eine Engine zur Ausführungswiederholung für KI-Agenten, die jeden LLM-Aufruf, jede Tool-Invocation und jeden Fehler aufzeichnet, sodass Sie Ausführungen wiederholen, von einem fehlerhaften Schritt aus forken und Korrekturen vor der Bereitstellung überprüfen können.
Beliebte Artikel

Atoms: Eine Multi-Agenten-KI-Plattform, die Ideen in startbereite Produkte verwandelt
May 22, 2026

Nano Banana SBTI: Was es ist, wie es funktioniert und wie man es im Jahr 2026 einsetzt
Apr 15, 2026

Atoms Review – Der KI-Produkt-Builder, der die digitale Erstellung im Jahr 2026 neu definiert
Apr 10, 2026

Kilo Claw: Wie man einen echten "Do-It-For-You" KI-Agenten bereitstellt und verwendet (2026 Update)
Apr 3, 2026







