
Open Browser Use
Open Browser Use ist eine Open-Source, Agenten-Laufzeit-neutrale Browser-Automatisierungsschicht, die eine Chrome-Erweiterung mit einer CLI/SDK/MCP koppelt, um DOM-bewusste, CDP-gesteuerte Tab-Steuerung, Navigation und Aktionen über verschiedene KI-Agenten-Tools hinweg zu ermöglichen.
https://github.com/iFurySt/open-codex-browser-use?ref=producthunt&utm_source=aipure

Produktinformationen
Aktualisiert:May 18, 2026
Was ist Open Browser Use
Open Browser Use (open-browser-use) ist eine Open-Source-Alternative zur „Browser Use“-Funktionalität, die durch Codex populär gemacht wurde. Sie wurde entwickelt, um KI-Agenten die zuverlässige Bedienung eines echten Chrome-Browsers mit einer reichhaltigeren, strukturierteren Steuerung als bei der screenshot-gesteuerten Automatisierung zu ermöglichen. Es bietet eine laufzeitübergreifende Integrationsfläche – über eine CLI, JavaScript/Python/Go SDKs und einen MCP-Server – sodass verschiedene Agenten-Umgebungen dieselben Browser-Funktionen aufrufen können. Das Projekt konzentriert sich auf praktische Browser-Workflows wie das Öffnen und Beanspruchen von Tabs, das Navigieren, das Inspizieren von Seiten über das Chrome DevTools Protocol (CDP) und das Ausführen von Aktionsplänen, während die Integration modular und portabel bleibt.
Hauptfunktionen von Open Browser Use
Open Browser Use (open-browser-use) ist eine Open-Source, Agent-Laufzeit-neutrale Browser-Automatisierungsschicht, die als Alternative zu Codex' Chrome Browser Use entwickelt wurde. Sie kombiniert eine Chrome-Erweiterung mit einer lokalen CLI (Native Messaging) und kann über ein SDK (JS/Python/Go), einen "Skill" als Paket für Agent-Laufzeiten (z. B. Codex, Claude Code) oder einen MCP-Server genutzt werden. Sie bietet praktische Browser-Kontroll-Primitive – Tab-Erkennung/-Anspruch, Navigation, CDP-Zugriff, Aktionsplanung und Bereinigung – damit Agenten und Entwicklertools echte Chrome-Sitzungen strukturiert und wiederverwendbar automatisieren können.
Erweiterung + CLI native Brücke: Kombiniert eine Chrome-Erweiterung mit der open-browser-use CLI, um einen nativen Host zu registrieren und eine zuverlässige lokale Automatisierung durch Chromes Native Messaging zu ermöglichen (anstatt einer anfälligen, nur auf Screenshots basierenden Automatisierung).
Mehrsprachige SDKs: Bietet JavaScript/TypeScript-, Python- und Go-SDKs (open-browser-use-sdk auf npm/PyPI; Go-Paket verfügbar), damit Teams Browser-Automatisierung in Apps, Agenten und interne Tools einbetten können.
MCP-Server für Agenten-Toolchains: Stellt einen MCP-Server (z. B. `obu mcp`) bereit, der Browser-Tools zum Auflisten/Öffnen/Beanspruchen von Tabs, Navigation, CDP-Operationen, Aktionsplänen und Bereinigung bietet – was die Anbindung an MCP-fähige Agenten erleichtert.
Agenten-"Skill"-Paketierung: Verteilt ein installationsfertiges Skill-Bundle (über `npx skills add ...`) für beliebte Agenten-Laufzeiten wie Codex und Claude Code, was eine schnelle Einführung ohne kundenspezifische Integrationsarbeit ermöglicht.
Zugriff auf das Chrome DevTools Protocol (CDP): Unterstützt CDP-basierte Inspektions- und Automatisierungs-Workflows (z. B. DOM-bewusste Interaktionen, Debugging-ähnliche Steuerung), die für eine robustere Web-Automatisierung als einfache Klick-/Tipp-Makros geeignet sind.
Flexibilität bei Einrichtung und Verteilung: Bietet eine geführte Einrichtung (`open-browser-use setup`) und einen Fallback-Pfad für die manuelle Erweiterungsinstallation (Beta-ZIP über `chrome://extensions/`), wenn die Verfügbarkeit im Store begrenzt ist.
Anwendungsfälle von Open Browser Use
Authentifizierte geschäftliche Web-Workflows: Automatisieren Sie Aufgaben in angemeldeten Chrome-Kontexten (z. B. interne Dashboards, CRM/ERP-Portale), wo API-Integrationen nicht verfügbar oder unvollständig sind, während Aktionen über CLI/SDK reproduzierbar bleiben.
QA- und Regressionstests für Web-Apps: Führen Sie skriptgesteuerte Navigations- und Interaktionsabläufe für Staging-/Produktions-Web-Apps mit CDP-Tools aus, geeignet für Smoke-Tests, Release-Validierung und UI-Sanity-Checks.
Kundensupport- und Betriebsautomatisierung: Unterstützen Sie Support-/Betriebsteams, indem Sie wiederkehrende Browserschritte (Ticket-Triage in Webkonsolen, Abrufen von Bestell-/Statusdetails, Aktualisieren von Datensätzen) durch agentengesteuerte Routinen automatisieren.
Web-Recherche- und Inhalts-Extraktions-Pipelines: Steuern Sie Chrome, um Seiten zu öffnen, mehrstufige Abläufe zu durchlaufen und strukturierte Artefakte für die nachgelagerte Zusammenfassung oder Analyse in Forschung, Wettbewerbsanalyse oder Wissensmanagement zu sammeln.
Entwicklerproduktivitäts-Tools: Integrieren Sie Browser-Steuerung in Entwicklungstools (CLI-Helfer, interne Bots), um gängige webbasierte Aufgaben wie das Überprüfen von Build-Dashboards, das Verifizieren von Dokumentationsseiten oder das Reproduzieren von UI-Problemen zu automatisieren.
RPA-ähnliche Automatisierung für KMU-Backoffices: Bieten Sie leichte Robotic-Process-Automation-Funktionen für tabellenkalkulationsgesteuerte oder formularintensive Webprozesse (Rechnungsportale, Anbieterseiten) ohne die Entwicklung vollständiger benutzerdefinierter Integrationen.
Vorteile
Open-Source-Alternative zu Codex Browser Use mit einem Laufzeit-neutralen Design (nutzbar über SDK, Skill oder MCP).
CDP-basierter Ansatz ermöglicht eine robustere, DOM-bewusste Automatisierung als rein visuelle/screenshot-basierte Methoden.
Mehrere Integrationsflächen (CLI, SDKs, MCP, Skill) machen es an verschiedene Stacks und Agenten-Ökosysteme anpassbar.
Nachteile
Erfordert lokale Einrichtung und Wartung (Registrierung des nativen Hosts, Installation/Aktivierung der Erweiterung, Chrome-Neustarts).
Chrome-/Erweiterungs-basierte Automatisierung kann empfindlich auf Änderungen der Browser-Richtlinien, die Verfügbarkeit des Erweiterungs-Stores und Unternehmensbeschränkungen reagieren.
Die Sicherheitslage hängt davon ab, wie es eingesetzt wird – die Automatisierung echter angemeldeter Sitzungen erhöht das Risiko, wenn Genehmigungen, Scoping und Zugriffskontrollen nicht sorgfältig gehandhabt werden.
Wie verwendet man Open Browser Use
1) Installieren Sie die Open Browser Use (OBU) CLI: Installieren Sie die CLI mit einer der unterstützten Methoden:
- Homebrew (macOS): `brew tap iFurySt/open-browser-use && brew install open-browser-use`
- npm (plattformübergreifend): `npm i -g open-browser-use`
Wenn Sie Homebrew verwendet haben und später aktualisieren möchten: `brew upgrade open-browser-use`.
2) Führen Sie das Setup aus, um den nativen Host zu registrieren und die Chrome-Erweiterung zu installieren/aktivieren: Ausführen: `open-browser-use setup`
Dies registriert den nativen Messaging-Host, der von der Chrome-Erweiterung verwendet wird, und öffnet die Chrome Web Store-Seite, damit Sie die passende Erweiterung installieren/aktivieren können. Starten Sie Chrome neu, wenn Sie dazu aufgefordert werden.
Wenn der Chrome Web Store-Artikel vorübergehend nicht verfügbar ist, führen Sie aus: `open-browser-use setup beta` und laden Sie dann manuell die generierte ZIP-Datei von `chrome://extensions/` (Entwicklermodus).
3) Überprüfen Sie, ob Chrome für OBU bereit ist: Stellen Sie sicher:
- Die Erweiterung ist in Chrome installiert und aktiviert.
- Chrome wurde nach dem Setup neu gestartet (falls erforderlich).
- Sie können die Erweiterung in der Symbolleiste oder im Erweiterungsmenü sehen.
4) Verwenden Sie Open Browser Use über die CLI (direkte Nutzung): Mit installierter CLI und eingerichtetem Chrome können Sie OBU-Befehle ausführen, um die Browser-Automatisierung (Tab-Auflistung/-Öffnen/-Beanspruchen/-Navigation/CDP-Aktionen) zu steuern. Die genauen Befehle hängen von Ihrem Workflow ab; die Hauptanforderung ist, dass Chrome + die Erweiterung ausgeführt werden und der native Host über `open-browser-use setup` registriert ist.
5) Verwenden Sie Open Browser Use über ein SDK (JavaScript/TypeScript, Python oder Go): Installieren Sie das SDK für Ihre Sprache:
- JavaScript/TypeScript: `npm install open-browser-use-sdk`
- Python: `pip install open-browser-use-sdk` (Import als `open_browser_use`)
- Go: `go get github.com/ifuryst/open-codex-browser-use/packages/open-browser-use-go` (Import als `obu`)
Rufen Sie dann das SDK aus Ihrem Code auf, um eine Verbindung zur OBU-Laufzeit herzustellen und Chrome über die Erweiterung zu automatisieren.
6) Verwenden Sie Open Browser Use als Codex/Agent Skill (empfohlen für Agenten-Workflows): Installieren Sie den Skill global für Codex:
- `npx skills add iFurySt/open-codex-browser-use -g -a codex --skill open-browser-use --copy -y`
- Installation überprüfen: `npx skills ls -g -a codex | rg 'open-browser-use'`
Führen Sie dann eine Codex-Aufgabe aus, die sie aufruft, z.B.:
- `codex exec --skip-git-repo-check "Verwenden Sie open-browser-use, um die heutigen Hacker News zu überprüfen und die lesenswertesten Beiträge zusammenzufassen."`
Zum späteren Aktualisieren: `npx skills update open-browser-use -g -y` (oder `npx skills upgrade open-browser-use -g -y`).
7) Verwenden Sie Open Browser Use über MCP (Model Context Protocol) Tools: Installieren Sie den MCP-Server in unterstützte globale Agentenkonfigurationen:
- `npx add-mcp "obu mcp" --name open_browser_use --all -g -y`
- Bestätigen: `npx add-mcp list -g`
Oder konfigurieren Sie manuell (stdio MCP) in Ihrer Agentenkonfiguration:
- `[mcp_servers.open_browser_use]`
`command = "obu"`
`args = ["mcp"]`
Dies stellt Browser-Tools für die Tab-Auflistung, das Öffnen, Beanspruchen, Navigieren, CDP, Aktionspläne und die Bereinigung bereit.
8) Führen Sie Ihren ersten End-to-End-Automatisierungsfluss aus: Starten Sie Chrome (mit aktivierter OBU-Erweiterung), dann:
- Wenn Sie Codex Skill verwenden: Bitten Sie Codex, eine Browser-Aufgabe mit dem open-browser-use Skill auszuführen.
- Wenn Sie MCP verwenden: Rufen Sie die MCP-Tools auf, um einen Tab aufzulisten/zu öffnen/zu beanspruchen, zu einer URL zu navigieren und Aktionen auszuführen.
- Wenn Sie ein SDK verwenden: Führen Sie Ihr Skript aus, um eine Verbindung herzustellen und die Navigation und Interaktionen zu automatisieren.
Lassen Sie Chrome während des Laufs geöffnet, damit die Erweiterung Befehle empfangen kann.
Open Browser Use FAQs
Open Browser Use (open-browser-use) ist eine Open-Source-Automatisierungsschicht für Browser, die darauf ausgelegt ist, über Agent-Laufzeiten hinweg neutral zu bleiben. Es ist als Open-Source-Alternative zur Chrome-Funktion „Browser Use“ positioniert, die in Codex.app enthalten ist.
Beliebte Artikel

Nano Banana SBTI: Was es ist, wie es funktioniert und wie man es im Jahr 2026 einsetzt
Apr 15, 2026

Atoms Review – Der KI-Produkt-Builder, der die digitale Erstellung im Jahr 2026 neu definiert
Apr 10, 2026

Kilo Claw: Wie man einen echten "Do-It-For-You" KI-Agenten bereitstellt und verwendet (2026 Update)
Apr 3, 2026

OpenAI schaltet Sora App ab: Was die Zukunft der KI-Videogenerierung im Jahr 2026 bereithält
Mar 25, 2026







