Polarity est une plateforme d'évaluation et de surveillance en bac à sable pour les agents d'IA qui exécute des tâches dans des environnements Docker isolés avec de véritables services de support, évalue le comportement par rapport aux invariants/règles interdites, mesure le non-déterminisme via des répliques et fournit une relecture basée sur des graines pour reproduire et corriger les défaillances.
https://polarity.so/?ref=producthunt&utm_source=aipure
Polarity

Informations sur le produit

Mis à jour:May 19, 2026

Qu'est-ce que Polarity

Polarity est un produit d'infrastructure d'évaluation conçu pour améliorer la fiabilité des agents d'IA fonctionnant en production, en particulier les flux de travail multi-étapes et de longue durée où le comportement avec état à travers des services réels est une source courante de défaillances. Positionné aux côtés d'outils comme Braintrust, LangSmith et Langfuse, Polarity se différencie en évaluant les agents dans des bacs à sable réalistes (pas de dépendances simulées) et en se concentrant sur le comportement au niveau de la trajectoire plutôt que sur les seules vérifications au niveau de l'invite. Il aide les équipes à surveiller les décisions des agents en temps réel, à trier rapidement les défaillances et à transformer les problèmes récurrents en barrières de sécurité durables qui empêchent les régressions.

Caractéristiques principales de Polarity

Polarity est une plateforme d'évaluation, de surveillance et de test de régression pour les agents d'IA en production, conçue pour exécuter des tâches d'agent dans des bacs à sable Docker isolés qui incluent de vrais services de support (par exemple, Postgres, Redis, S3, API internes). Elle capture les trajectoires complètes des agents, détecte et regroupe les comportements d'échec récurrents, évalue les exécutions par rapport aux invariants comportementaux et aux règles interdites, mesure le non-déterminisme via des exécutions de répliques, et fournit une relecture basée sur des graines pour reproduire les échecs localement et les promouvoir en garde-fous qui peuvent être intégrés dans l'intégration continue (CI) pour prévenir les régressions, en particulier pour les agents à longue durée d'exécution, multi-étapes et avec état.
Runtime d'évaluation en bac à sable avec services réels (Keystone): Exécute chaque tâche d'agent dans un bac à sable Docker isolé préchargé avec de vraies dépendances (bases de données, caches, stockage d'objets, API internes) pour faire apparaître les modes de défaillance que les environnements simulés manquent souvent.
Notation des invariants comportementaux et des règles interdites: Évalue les exécutions d'agents par rapport à des contraintes explicites de fiabilité et de sécurité (invariants) et des modèles non autorisés (règles interdites), transformant la « qualité d'agent » qualitative en vérifications applicables.
Surveillance des décisions de production et flux en direct: Instrumente les agents pour diffuser les décisions/trajectoires dans Polarity, permettant une surveillance continue, une visibilité au niveau du comportement et un triage rapide en cas de défaillance.
Découverte de comportements, regroupement et alertes de récurrence: Regroupe les décisions en comportements récurrents (par exemple, boucles d'outils, dérive de contexte obsolète, citations hallucinées, injection de prompt) et alerte les équipes lorsque des modes de défaillance connus réapparaissent.
Relecture ensemencée et reproduction en une seule commande: Expédie chaque échec avec un reproducteur de graine qui recrée le bac à sable identique localement, permettant un débogage déterministe et une itération plus rapide sur les invites, les outils ou les modèles.
Contrôle de régression CI à partir de trajectoires réelles: Promeut les échecs capturés en comportements/garde-fous qui peuvent être exécutés en CI comme tests de régression, bloquant les fusions lorsqu'un agent réintroduit des modèles d'échec connus.

Cas d'utilisation de Polarity

Agents de support client (e-commerce/SaaS): Détecter et prévenir les boucles d'appels d'outils, les erreurs de contexte obsolète et les actions dangereuses dans les flux de travail de remboursement/recherche de commande ; rejouer les incidents réels et valider les correctifs en CI avant le déploiement.
Agents d'ingénierie logicielle (outils de développement/IT): Évaluer les agents d'édition de code dans des bacs à sable et détecter les « évasions d'espace de travail » ou les comportements d'accès non sécurisés aux fichiers/systèmes ; reproduire les échecs de manière déterministe et verrouiller les garde-fous.
Fintech et flux de travail réglementés: Utiliser la notation des invariants/règles interdites pour faire respecter les comportements axés sur la conformité, surveiller la production pour la dérive et maintenir une reproductibilité des décisions des agents favorable à l'audit.
Assistants d'opérations de santé: Exécuter des agents avec état et multi-étapes contre des bacs à sable de services réels et surveiller les régressions de fiabilité (échecs de transfert, séquences d'outils incomplètes), améliorant la sécurité via le contrôle des comportements.
Agents RAG/recherche et connaissance: Détecter les citations hallucinées et l'injection de prompt dans les sorties d'outils ; regrouper les échecs récurrents de récupération/ancrage et les convertir en tests de régression automatisés.
Plateformes d'agents d'entreprise (systèmes multi-agents): Mesurer le non-déterminisme avec des exécutions de répliques, surveiller la fiabilité au niveau du comportement de nombreux agents et prioriser les correctifs en identifiant les modèles d'échec récurrents à fort impact.

Avantages

Évaluation haute fidélité via de vrais services de support dans des bacs à sable isolés, bien adaptée aux agents à longue durée d'exécution et avec état.
Forte reproductibilité (relecture de graine) et débogage/itération rapide à partir des échecs de production.
La surveillance et le regroupement basés sur le comportement aident les équipes à trouver les causes profondes et à prévenir les régressions récurrentes.
Chemin direct de l'incident → relecture → garde-fou promu → porte CI, permettant une fiabilité cumulative au fil du temps.

Inconvénients

Peut être plus lourd que les outils d'évaluation au niveau des invites pour les flux de travail simples à appel unique.
La mise en bac à sable avec des services réels peut augmenter la complexité de la configuration/opération par rapport aux harnais de test simulés.
La meilleure valeur dépend de la disponibilité de trafic/trajectoires d'agents de production à surveiller et à convertir en comportements.

Comment utiliser Polarity

1) Décidez si Polarity est la bonne solution: Utilisez Polarity lorsque vous avez des agents d'IA complexes, multi-étapes et de longue durée et que vous avez besoin d'une infrastructure d'évaluation qui détecte les défaillances avec état à travers de véritables services de support (par exemple, Postgres/Redis/S3/API internes), et pas seulement des problèmes au niveau de l'invite.
2) Créez un espace de travail pour votre environnement: Configurez des espaces de travail (par exemple, production, staging, expériences) pour organiser les agents, les projets, les coéquipiers, les tableaux de bord, les alertes et les contrôles d'accès.
3) Instrumentez votre agent avec le SDK Polarity: Ajoutez l'instrumentation Polarity à votre agent afin qu'il diffuse les décisions à Polarity pour la surveillance et la relecture. Exemple montré dans la source : import polarity as pl; agent = pl.instrument(agent=my_agent, workspace="prod", capture="decisions", sample_rate=1.0).
4) Exécutez votre agent en production avec la capture de décision activée: Déployez comme d'habitude, mais avec Polarity capturant les données au niveau de la décision. Polarity est conçu pour surveiller chaque décision d'agent en production et détecter les modèles de défaillance avant que les utilisateurs ne les rencontrent.
5) Surveillez les flux de décisions en direct et la santé au niveau du comportement: Utilisez la surveillance de production de Polarity pour observer les décisions en direct et suivre la fiabilité par agent et par comportement (pas seulement la latence). Configurez des moniteurs au niveau du comportement et des alertes sensibles à la trajectoire pour détecter les régressions et les modes de défaillance récurrents.
6) Enquêtez sur les défaillances en tirant des traces et en trouvant des incidents similaires: Lorsqu'un agent échoue, ouvrez la trace (trajectoire) et utilisez le regroupement de Polarity pour trouver des défaillances similaires (modèles/comportements récurrents) afin de pouvoir identifier plus rapidement les causes profondes.
7) Identifiez et étiquetez les comportements de défaillance récurrents: Utilisez la découverte de comportement et le regroupement de Polarity pour regrouper les décisions en comportements (par exemple, détecteur de boucle d'outil, dérive de contexte obsolète, citation hallucinatoire) et comprendre l'impact sur les utilisateurs et les agents.
8) Rejouez une défaillance de production localement avec une reproduction amorcée: Utilisez les outils de relecture de Polarity pour reproduire le bac à sable identique localement (reproducteur amorcé) et réexécuter la trajectoire de production exacte. Exemple montré dans la source : uv run plr replay --trace <trace_id> --agent @ examples/agent/agent.toml --diff inline.
9) Promouvez la défaillance reproduite en comportement/garde-fou: Transformez la défaillance capturée en une définition de comportement réutilisable avec des invariants et des règles interdites afin que la même régression soit détectée et bloquée à l'avenir. La source montre un flux de relecture qui peut inclure --promote-to-behavior.
10) Bloquez les régressions en CI en utilisant des comportements promus: Exécutez des tests de régression CI en rejouant des traces de production par rapport à des correctifs candidats (modifications d'invite/d'outil/de modèle). Promouvez les évaluations en CI afin que les fusions soient bloquées lorsque des comportements de défaillance connus réapparaissent.
11) Mesurez le non-déterminisme avec des répliques: Configurez des exécutions de répliques pour quantifier le non-déterminisme (exécutez la même tâche plusieurs fois) et évaluez les résultats par rapport aux invariants comportementaux et aux règles interdites.
12) Itérez : livrez des correctifs, étendez la couverture et améliorez la fiabilité: À mesure que de nouvelles défaillances apparaissent en production, répétez la boucle : détecter → tracer → regrouper → rejouer → promouvoir en comportement → bloquer en CI. Au fil du temps, Polarity 'verrouille' les défaillances détectées en tant que garde-fous afin que la fiabilité s'améliore.

FAQ de Polarity

Polarity est une infrastructure d'évaluation en bac à sable pour les agents d'IA. Son runtime Keystone exécute chaque tâche d'agent dans un bac à sable Docker isolé préchargé avec de vrais services de support (par exemple, Postgres, Redis, S3, API internes), évalue les exécutions par rapport aux invariants comportementaux et aux règles interdites, mesure le non-déterminisme via des répliques, et expédie les échecs avec un reproducteur de graine pour recréer le bac à sable identique localement.

Derniers outils d'IA similaires à Polarity

Hapticlabs
Hapticlabs
Hapticlabs est un kit d'outils sans code qui permet aux concepteurs, développeurs et chercheurs de concevoir, prototyper et déployer facilement des interactions haptiques immersives sur différents appareils sans codage.
Deployo.ai
Deployo.ai
Deployo.ai est une plateforme complète de déploiement d'IA qui permet un déploiement, une surveillance et une mise à l'échelle sans faille des modèles avec des cadres d'IA éthique intégrés et une compatibilité inter-cloud.
CloudSoul
CloudSoul
CloudSoul est une plateforme SaaS alimentée par l'IA qui permet aux utilisateurs de déployer et de gérer instantanément l'infrastructure cloud grâce à des conversations en langage naturel, rendant la gestion des ressources AWS plus accessible et efficace.
Devozy.ai
Devozy.ai
Devozy.ai est une plateforme de libre-service pour développeurs alimentée par l'IA qui combine la gestion de projet Agile, DevSecOps, la gestion d'infrastructure multi-cloud, et la gestion des services informatiques en une solution unifiée pour accélérer la livraison de logiciels.