Retrace ist eine Ausführungs-Replay-Engine für KI-Agenten, die jeden LLM-/Tool-Aufruf aufzeichnet, es Ihnen ermöglicht, Fehler vom exakt fehlerhaften Schritt aus wiederzugeben und zu forken, und Korrekturen mit Eval Gates, Schutzmechanismen und Qualitätsdetektion überprüft.
https://retraceai.tech/?ref=producthunt&utm_source=aipure
Retrace

Produktinformationen

Aktualisiert:Jul 3, 2026

Was ist Retrace

Retrace ist eine Zuverlässigkeits- und Debugging-Plattform für KI-Agenten, positioniert als „CI für KI-Agentenverhalten“. Es erfasst vollständige End-to-End-Agentenausführungen – LLM-Aufrufe, Tool-Aufrufe, Fehler, Latenz und Kosten – damit Teams überprüfen können, was in der Produktion passiert ist, und Fehler in wiederholbare Regressionstests umwandeln können. Retrace wurde als Framework-agnostisch konzipiert und funktioniert mit gängigen Agenten-Stacks (z. B. LangChain, CrewAI, LlamaIndex) und unterstützt Python und TypeScript, mit Auto-Instrumentierung für große Modell-Anbieter (OpenAI, Anthropic und Google Gemini).

Hauptfunktionen von Retrace

Retrace ist eine Engine zur Ausführungswiederholung und Zuverlässigkeitsplattform für KI-Agenten, die jeden LLM-Aufruf, jede Tool-Invocation, Kosten, Latenz und Fehler aufzeichnet, sodass Teams exakte Läufe wiederholen, ab dem Schritt, in dem ein Fehler aufgetreten ist, abzweigen und Korrekturen vor der Auslieferung überprüfen können. Über die Beobachtbarkeit hinaus fügt es einen geschlossenen Workflow hinzu – aufzeichnen → wiederholen/abzweigen → beheben → beweisen – sowie automatisierte Fehlererkennung (z. B. Groundedness-Lücken, Drift, Clustering), Laufzeitdurchsetzung (Budgets, Schleifen-/Schrittlimits, Genehmigungsschwellen) und CI-Evaluierungsschwellen, die echte Produktionsfehler in Regressionstests umwandeln. Es funktioniert über gängige LLM-Anbieter und Agenten-Frameworks hinweg über eine leichte Instrumentierung in Python oder TypeScript.
Vollständige Agenten-Ausführungen aufzeichnen: Ein leichter Decorator/SDK erfasst jeden Modellaufruf, Tool-Aufruf, Fehler, Zeitablauf und Kosten und verwandelt jeden Lauf in einen Trace, den Sie inspizieren und als Regression-Artefakt wiederverwenden können.
Wiederholen & Abzweigen von jedem fehlgeschlagenen Schritt: Führen Sie eine exakt aufgezeichnete Ausführung erneut aus oder zweigen Sie von dem Bereich ab, in dem etwas schief gelaufen ist, bearbeiten Sie den Prompt/Tool-Input/Modell und wiederholen Sie kaskadierend, um zu sehen, wie sich die Trajektorie ändert.
Prove-the-fix Verifizierung: Nach einer Änderung kann Retrace den ursprünglichen fehlgeschlagenen Trace erneut ausführen und ein Urteil (z. B. behoben/verbessert/verschlechtert/unverändert) zurückgeben, um die Korrektur vor der Veröffentlichung zu validieren.
Automatisierte Fehlererkennung & -analyse: Markiert gängige Agenten-Fehlermuster wie Groundedness-/Faithfulness-Lücken, statistische Drift, Fehlercluster und Multi-Agenten-Fehlertypen, um zu erklären, warum ein Lauf fehlgeschlagen ist – nicht nur, dass er fehlgeschlagen ist.
Laufzeit-Schutzmaßnahmen und -Durchsetzung: Richtlinien wie Kostenbudgets, Schleifenerkennung, Schrittlimits, Latenz-Obergrenzen und Pre-Call-Gateways (Genehmigungspflicht) können riskante Aktionen anhalten oder blockieren, um außer Kontrolle geratenes Verhalten und unerwartete Ausgaben zu verhindern.
CI-Evaluierungsschwellen für Agentenverhalten: Führt Evaluierungen in CI/CD durch und schlägt Builds fehl, wenn sich das Verhalten gegenüber einer Baseline verschlechtert, was 'Verhaltens-Regressionstests' für Prompts, Tools und Modell-Upgrades ermöglicht.

Anwendungsfälle von Retrace

Debugging von Agenten-Vorfällen in der Produktion: Wenn ein Agent in der Produktion ausfällt, können Ingenieure den genauen Lauf wiederholen, am wahren Ursachenschritt (nicht am letzten Symptom) abzweigen und eine Korrektur mit 'prove-the-fix' validieren, bevor sie erneut bereitgestellt wird.
Sicherere, Tool-nutzende Agenten ausliefern (DevOps/SRE): Für Agenten, die Protokolle/Metriken abfragen oder operative Aktionen auslösen, reduzieren Schutzmaßnahmen (Budgets, Schleifenlimits, Genehmigungsschwellen) das Risiko von Kaskadenfehlern oder kostspieligen außer Kontrolle geratenen Ausführungen.
Regressionstests für Prompt-/Tool-/Modelländerungen: Teams, die Prompts iterieren, Tools austauschen oder Modelle aktualisieren, können aufgezeichnete Fehler und Evaluierungsschwellen nutzen, um sicherzustellen, dass sich das mehrstufige Verhalten über Releases hinweg nicht unbemerkt verschlechtert.
Zuverlässigkeit von Multi-Agenten-Workflows (Forschung → Schreib-Pipelines): In Systemen mit Planer-/Forscher-/Schreiber-Agenten hilft Retrace, die Agenten-Topologie zu visualisieren, Fehler bei der Übergabe zwischen Agenten zu identifizieren und zur Verbesserung der Koordination zu wiederholen/abzuzweigen.
Qualitäts- und Compliance-Überwachung für Unternehmensassistenten: Die Erkennung von Groundedness und die Rückverfolgbarkeit unterstützen Audits und Qualitätskontrollen für Assistenten in regulierten oder risikoreichen Kontexten (z. B. Finanzen, Gesundheitswesen, Recht), wo Halluzinationen und unsichere Aktionen frühzeitig erkannt werden müssen.

Vorteile

Closed-Loop-Debugging: Wiederholen, Abzweigen und Verifizieren von Korrekturen, anstatt nur Protokolle/Metriken zu inspizieren.
Framework- und anbieterunabhängiger Ansatz mit leichter Instrumentierung (Python/TypeScript) und Unterstützung für gängige LLM-Anbieter.
Laufzeit-Schutzmaßnahmen können kostspieliges oder unsicheres Agentenverhalten verhindern (Budgets, Schleifenerkennung, Genehmigungsschwellen).
CI-Evaluierungsschwellen wandeln echte Fehler in Verhaltens-Regressionstests um und helfen Teams, mit mehr Vertrauen auszuliefern.

Nachteile

Einige Funktionen hängen von der Anbieter-/Schlüsselunterstützung ab (z. B. können bestimmte Wiederholungs-/Evaluierungsabläufe für bestimmte Anbieter ausgereifter sein).
Sinnvolle Evaluierungsschwellen erfordern ein durchdachtes Evaluierungsdesign und Schwellenwerte; die Einrichtung kann für komplexe Agenten nicht trivial sein.
Die Aufzeichnung detaillierter Traces kann Datenschutz-/Compliance-Überlegungen aufwerfen, die eine sorgfältige Redaktion und Datenverwaltung in sensiblen Umgebungen erfordern.

Wie verwendet man Retrace

1) Konto erstellen: Gehen Sie zu https://retraceai.tech/ und melden Sie sich an (GitHub-Anmeldung wird unterstützt). Zum Starten ist keine Kreditkarte erforderlich.
2) Retrace SDK installieren: Fügen Sie das Retrace SDK Ihrem Agentenprojekt hinzu (Python oder TypeScript). Retrace ist Framework-agnostisch und funktioniert mit LangChain, CrewAI, LlamaIndex, Vercel AI SDK, AutoGen usw.
3) API-Schlüssel konfigurieren: Konfigurieren Sie in Ihrem Code Retrace mit Ihrem Workspace-API-Schlüssel (das auf der Website gezeigte Beispiel verwendet `retrace.configure(api_key="rt_...")`). Dies verbindet Ihre App mit Retrace, sodass Traces zum Dashboard gestreamt werden können.
4) Den Recording-Decorator zum Agenten-Einstiegspunkt hinzufügen: Umschließen Sie Ihre Hauptagentenfunktion mit dem in der Dokumentation gezeigten Decorator: `@retrace.record(name="my-agent")`. Dieser einzelne Decorator erfasst jeden LLM-Aufruf, Tool-Aufruf, Kosten, Timing und Fehler.
5) Agenten normal ausführen: Führen Sie Ihren Agenten wie gewohnt aus. Retrace erfasst automatisch Aufrufe an OpenAI, Anthropic und Gemini und zeichnet Tool-Aufrufe und Fehler als Spans in einer Trace-Timeline auf.
6) Traces live streamen (optionaler CLI-Tail): Verwenden Sie die CLI, um Live-Traces zu verfolgen (Beispiel von der Website: `retrace traces tail`). Sie sehen Schritte wie Absichtsklassifizierung, Kontextabruf und Antwortgenerierung mit Timings und Kosten.
7) Trace im Dashboard überprüfen: Öffnen Sie die Retrace-Benutzeroberfläche, um die Timeline zu durchsuchen, jeden Span zu öffnen und die vollständige Abfolge der Modell-/Tool-Aufrufe anzuzeigen. Dies hilft Ihnen herauszufinden, wo der Lauf tatsächlich schiefgelaufen ist (oft früher als der endgültige Fehler).
8) Fehlgeschlagenen Lauf wiederholen: Führen Sie jeden aufgezeichneten Trace erneut aus, um das genaue Verhalten zu reproduzieren. Retrace ist so konzipiert, dass ein Produktionsfehler zu einem permanenten Regressionstest wird, den Sie erneut ausführen können.
9) Vom exakt fehlerhaften Span forken: Wählen Sie den Span aus, an dem der Lauf abgewichen oder fehlgeschlagen ist, und erstellen Sie dann einen Fork, um von diesem Punkt aus zu verzweigen (Beispielbefehle: `retrace forks create --trace <id> --span <id> --input "..."`).
10) Den fehlerhaften Schritt bearbeiten (Prompt/Tool-Eingabe/Modell) und Kaskaden-Wiedergabe: Ändern Sie im Fork, was den Fehler verursacht hat (z. B. einen Prompt anpassen, eine Tool-Eingabe korrigieren oder das Modell austauschen), und spielen Sie dann den Fork erneut ab (Beispiel: `retrace forks replay <id> --wait`). Retrace spielt von diesem Fork-Punkt an kaskadierend ab, sodass nachfolgende Schritte den aktualisierten Kontext verwenden.
11) Die Korrektur mit einem Urteil beweisen: Führen Sie die integrierte Verifizierung aus, um den korrigierten Fork mit dem ursprünglichen fehlgeschlagenen Lauf zu vergleichen und ein Urteil zu erhalten (Beispiel: `retrace traces verify-fix <id>`), das als verbessert/verschlechtert/unverändert gemeldet wird (und im Website-Beispiel als „fix verified“ angezeigt wird).
12) Laufzeit-Schutzmechanismen hinzufügen (empfohlen): Konfigurieren Sie Schutzmechanismen/Schutzschalter, um Läufe zu stoppen, die Budgets überschreiten, zu lange schleifen, den Kontext überlaufen oder Latenzgrenzen überschreiten. Retrace kann einen HALT ausgeben, um außer Kontrolle geratenes Verhalten zu stoppen, bevor es Kosten verursacht oder schlechte Aktionen auslöst.
13) Erkennungssignale aktivieren (empfohlen): Verwenden Sie die Erkennungsfunktionen von Retrace, um automatisch Lücken in der Fundierung, Drift, Fehlercluster und MAST-Fehlertypen zu kennzeichnen, damit Sie erfahren, warum ein Lauf fehlgeschlagen ist (nicht nur, dass er fehlgeschlagen ist).
14) (Optional) Fügen Sie Ihren Modell-Anbieterschlüssel für serverseitige Replays und Eval Gates hinzu: Fügen Sie im Retrace-Dashboard unter Einstellungen Ihren Anbieterschlüssel hinzu (die Website hebt Google/Gemini für Eval Gates + Replays hervor). Retrace validiert den Schlüssel beim Speichern, verschlüsselt ihn im Ruhezustand, zeigt nur die letzten 4 Zeichen an und verwendet ihn, damit Replay-/Eval-Token Ihrem Anbieterkonto in Rechnung gestellt werden.
15) Eine Evaluierung und einen Datensatz für Regressionstests erstellen: Richten Sie Evaluierungen (und optional Datensätze und automatische Eval-Regeln) ein, damit Sie das Agentenverhalten über aufgezeichnete Läufe bewerten und mit einem Basisverhalten („Golden“) vergleichen können.
16) PRs mit einem Eval Gate in CI steuern: Fügen Sie einen CI-Schritt hinzu, der Retrace's Eval Gate ausführt, sodass Builds fehlschlagen, wenn sich das Verhalten verschlechtert. Beispiel für einen GitHub Actions-Schritt von der Website: `retrace eval gate --evaluation $EVAL_ID --trace $TRACE_ID --threshold 0.8` mit `RETRACE_API_KEY` in Secrets; der Befehl beendet sich bei Fehler mit Code 1.
17) Iterieren Sie mit dem Closed-Loop-Workflow: Wiederholen Sie die Zuverlässigkeitsschleife: Einen echten Fehler aufzeichnen → Wiederholen → Vom fehlerhaften Schritt forken → Korrigieren → Korrektur beweisen → Zu Eval Gates hinzufügen, damit die gleiche Regression schwerer erneut ausgeliefert werden kann.

Retrace FAQs

Retrace ist eine Engine zur Ausführungswiederholung für KI-Agenten, die jeden LLM-Aufruf, jede Tool-Invocation und jeden Fehler aufzeichnet, sodass Sie Ausführungen wiederholen, von einem fehlerhaften Schritt aus forken und Korrekturen vor der Bereitstellung überprüfen können.

Neueste KI-Tools ähnlich wie Retrace

Hapticlabs
Hapticlabs
Hapticlabs ist ein No-Code-Toolkit, das Designern, Entwicklern und Forschern ermöglicht, immersive haptische Interaktionen über Geräte hinweg einfach zu entwerfen, zu prototypisieren und bereitzustellen, ohne programmieren zu müssen.
Deployo.ai
Deployo.ai
Deployo.ai ist eine umfassende KI-Bereitstellungsplattform, die nahtlose Modellbereitstellung, Überwachung und Skalierung mit integrierten ethischen KI-Rahmenwerken und Cloud-übergreifender Kompatibilität ermöglicht.
CloudSoul
CloudSoul
CloudSoul ist eine KI-gestützte SaaS-Plattform, die es Benutzern ermöglicht, Cloud-Infrastrukturen sofort über natürliche Sprachkonversationen bereitzustellen und zu verwalten, wodurch das Management von AWS-Ressourcen zugänglicher und effizienter wird.
Devozy.ai
Devozy.ai
Devozy.ai ist eine KI-gestützte Entwickler-Selbstbedienungsplattform, die agiles Projektmanagement, DevSecOps, Multi-Cloud-Infrastrukturmanagement und IT-Service-Management in einer einheitlichen Lösung zur Beschleunigung der Softwarebereitstellung kombiniert.