Wie viel kostet die Grok TTS API?

Die API kostet während der Beta-Phase 4,20 $ pro 1 Million Zeichen, mit Ratenbegrenzungen von 600 Anfragen pro Minute und 10 Anfragen pro Sekunde pro Team.

Welche Stimmen sind in Grok TTS verfügbar?

Fünf Stimmen sind verfügbar: Eve (energiegeladen und optimistisch), Ara (warm und freundlich), Rex (selbstbewusst und professionell), Sal (sanft und vielseitig) und Leo (autoritär und stark). Jede ist für bestimmte Inhaltstypen optimiert.

Unterstützt Grok TTS expressive Sprachtags?

Ja, Grok TTS unterstützt Inline-Tags zum Hinzufügen von Ausdrücken wie Lachen, Flüstern, Pausen und mehr. Diese Tags können direkt in den Text eingebettet werden, um die Sprachausgabe zu steuern, ohne dass zusätzliche API-Parameter erforderlich sind.

Ist Grok TTS für Telefonieanwendungen geeignet?

Ja, die API gibt nativ G.711 μ-law- und A-law-Codecs mit 8 kHz aus, die Standardformate für Telefoniesysteme sind. Sie unterstützt mehrere Audioformate, die für verschiedene Anwendungsfälle optimiert sind, darunter Telefonie, Web und Postproduktion.

Wie lang darf der Text für Grok TTS maximal sein?

Der Standard-POST-Endpunkt akzeptiert bis zu 15.000 Zeichen pro Anfrage mit einem 15-Minuten-Timeout. Der WebSocket-Endpunkt hat keine Zeichenbeschränkung, obwohl einzelne Delta-Nachrichten auf 15.000 Zeichen begrenzt sind.

Grok's Text to Speech API

WebsitePaidText to Speech AI Voice Assistants

Die Grok Text-to-Speech-API ist ein Entwicklerdienst, der Text in nat\u00fcrliche, ausdrucksstarke Sprache umwandelt und 5 verschiedene Stimmen, \u00fcber 20 Sprachen und Inline-Sprach-Tags f\u00fcr eine feink\u00f6rnige Kontrolle \u00fcber Wiedergabe und Ton unterst\u00fctzt.

Website besuchen

Dieses Tool bewerben

https://x.ai/api/voice?ref=producthunt&utm_source=aipure#text-to-speech

Überblick
Analyse
Video
Alternativen

Produktinformationen

Aktualisiert:Jun 9, 2026

Grok's Text to Speech API Monatliche Traffic-Trends

Die Grok's Text to Speech API erreichte 22,3 Mio. Besuche mit einer Wachstumsrate von 47,0 %, was auf ein moderates Wachstum hinweist. Dieser Anstieg ist wahrscheinlich auf die Einführung von Grok Imagine Version 0.9 am 5. Oktober 2025 zurückzuführen, die Groks multimodale Fähigkeiten um fortschrittliche Text-zu-Video- und Bildgenerierung erweiterte und damit die Sichtbarkeit der Plattform und das Engagement der Entwickler erheblich steigerte.

Verlaufsdaten anzeigen

Was ist Grok's Text to Speech API

Die von xAI ver\u00f6ffentlichte Grok Text-to-Speech-API ist eine hochentwickelte Text-to-Voice-L\u00f6sung, mit der Entwickler hochwertige, nat\u00fcrlich klingende Sprache aus Texteingaben generieren k\u00f6nnen. Die API wurde entwickelt, um den Bedarf an ausdrucksstarker Audioerzeugung f\u00fcr Inhaltserstellung, Barrierefreiheit und Entwickleranwendungen zu decken. Sie bietet einen einfachen Integrationsprozess durch eine einzelne POST-Anfrage an den API-Endpunkt, wobei lediglich Texteingabe, Sprachauswahl und Sprachparameter erforderlich sind, um Audioausgabe zu generieren.

Hauptfunktionen von Grok's Text to Speech API

Die Text-to-Speech-API von Grok ist ein leistungsstarker Dienst, der Text in natürlich klingende Sprache mit 5 verschiedenen Sprachoptionen (Eve, Ara, Leo, Rex, Sal) umwandelt und über 20 Sprachen mit automatischer Erkennung unterstützt. Die API bietet eine detaillierte Steuerung durch Inline-Sprach-Tags für Pausen, Lachen, Flüstern und Betonung und bietet gleichzeitig mehrere Ausgabeformate und Abtastraten. Mit 4,20 $ pro 1 Million Zeichen bietet sie wettbewerbsfähige Preise für Entwickler, die Sprachanwendungen erstellen.

Expressive Voice Options: Fünf verschiedene Sprachpersönlichkeiten mit einzigartigen Eigenschaften - Ara (warm, freundlich), Eve (energiereich, optimistisch), Rex (selbstbewusst, klar), Sal (sanft, ausgeglichen) und Leo (autoritär, stark)

Inline Speech Controls: Erweiterte Kontrolle über die Sprachausgabe mithilfe von Inline-Tags für Pausen, Lachen, Flüstern, Betonung und andere expressive Elemente

Multilingual Support: Unterstützt über 20 Sprachen mit automatischer Spracherkennung und muttersprachlicher Kompetenz in Aussprache und Dialekten

Flexible Audio Formats: Mehrere Ausgabeformate und Abtastraten von 8000 Hz bis 48000 Hz, geeignet für Telefonie, Spracherkennung und professionelle Audioanwendungen

Anwendungsfälle von Grok's Text to Speech API

Content Creation: Generieren Sie natürliche Voiceovers für Videos, Podcasts und andere digitale Inhalte mit ausdrucksstarker Wiedergabe und mehreren Sprachoptionen

Customer Support: Erstellen Sie interaktive Sprachdialogsysteme und automatisierte Kundendienstmitarbeiter mit natürlich klingenden Antworten

Accessibility Solutions: Erstellen Sie Audioversionen von schriftlichen Inhalten für sehbehinderte Benutzer oder solche, die den Audiokonsum bevorzugen

Gaming and Entertainment: Generieren Sie dynamische Sprachinhalte für Spielcharaktere und interaktive Unterhaltungsanwendungen

Vorteile

Wettbewerbsfähige Preise von 4,20 $ pro 1 Million Zeichen

Umfangreiche Kontrolle über den Sprachausdruck durch Inline-Tags

Integriert in das Tesla-Ökosystem und Potenzial für breitere Anwendungen

Nachteile

Beschränkt auf 100 gleichzeitige Anfragen pro Team

Keine spezielle Funktion zur detaillierten Steuerung der Sprachprosodieparameter

Relativ neuer Dienst mit sich entwickelnden Funktionen und Möglichkeiten

Wie verwendet man Grok's Text to Speech API

API-Schl\u00fcssel abrufen: Richten Sie XAI_API_KEY in Ihren Umgebungsvariablen oder der .env-Datei ein, indem Sie einen API-Schl\u00fcssel von xAI beziehen

Abh\u00e4ngigkeiten installieren: Installieren Sie erforderliche Bibliotheken wie \'requests\' f\u00fcr Python oder verwenden Sie fetch f\u00fcr JavaScript

API-Anfrage stellen: Senden Sie eine POST-Anfrage an https://api.x.ai/v1/tts mit Ihrem API-Schl\u00fcssel im Authorization-Header und Content-Type als application/json

Anfragetext konfigurieren: F\u00fcgen Sie den Parameter \'text\' im JSON-Text mit dem Text hinzu, den Sie in Sprache umwandeln m\u00f6chten. Geben Sie optional eine Stimme aus den verf\u00fcgbaren Optionen an: eve, ara, rex, sal, leo

Antwort verarbeiten: Verarbeiten Sie die Audioantwort, die in Ihrem angegebenen Format zur\u00fcckgegeben wird (wav ist Standard). Speichern oder streamen Sie das Audio nach Bedarf

Sprach-Tags hinzuf\u00fcgen (optional): Verwenden Sie Inline-Sprach-Tags, um den Ausdruck zu steuern, z. B. [fr\u00f6hlich], [fl\u00fcstern], oder f\u00fcgen Sie Pausen f\u00fcr nat\u00fcrlicher klingende Sprache hinzu

Nutzung \u00fcberwachen: Verfolgen Sie Ihre Nutzung, da die Preise 4,20 $ pro 1 Million Zeichen betragen, mit Ratenbeschr\u00e4nkungen von 600 Anfragen pro Minute oder 10 Anfragen pro Sekunde

Grok's Text to Speech API FAQs

Die Grok TTS API ist der Entwicklerdienst von xAI, der Text über einen einzigen API-Aufruf in gesprochene Audioinhalte umwandelt. Sie unterstützt 5 Stimmen, 20 Sprachen, expressive Sprachtags und mehrere Audio-Codecs, darunter MP3, WAV, PCM und Telefonieformate. Sie befindet sich derzeit in der Beta-Phase.

Beliebte Artikel

Atoms: Eine Multi-Agenten-KI-Plattform, die Ideen in startbereite Produkte verwandelt

May 22, 2026

Nano Banana SBTI: Was es ist, wie es funktioniert und wie man es im Jahr 2026 einsetzt

Apr 15, 2026

Atoms Review – Der KI-Produkt-Builder, der die digitale Erstellung im Jahr 2026 neu definiert

Apr 10, 2026

Kilo Claw: Wie man einen echten "Do-It-For-You" KI-Agenten bereitstellt und verwendet (2026 Update)

Apr 3, 2026

Analyse der Grok's Text to Speech API Website

Grok's Text to Speech API Traffic & Rankings

22.4M

Monatliche Besuche

#2580

Globaler Rang

#13

Kategorie-Rang

Traffic-Trends: Nov 2024-Oct 2025

Grok's Text to Speech API Nutzereinblicke

00:02:55

Durchschn. Besuchsdauer

2.97

Seiten pro Besuch

27.98%

Nutzer-Absprungrate

Top-Regionen von Grok's Text to Speech API

US: 26.62%

KR: 9.73%

IN: 4.62%

JP: 3.15%

HK: 2.99%

Others: 52.89%

Neueste KI-Tools ähnlich wie Grok's Text to Speech API

MicVoice.Ai

Free TrialText to Speech AI Voice Changer

MicVoice.Ai ist eine All-in-One-KI-Sprachgenerator-Plattform, die geschriebenen Text in qualitativ hochwertige, natürlich klingende Sprache mit über 5000 realistischen KI-Stimmen umwandelt, die 17+ Sprachen unterstützen.

Narrai

FreemiumAI Script Writing Text to Speech

Narrai ist eine KI-gesteuerte mobile App, die sofort Sprachübertragungen und Hintergrundmusik für kurze Videos erstellt, indem sie automatisch relevante Skripte generiert und mehrere Erzähler-Personas anbietet.

Vagent

FreeAI Voice Assistants Text to Speech

Vagent ist eine leichte Sprachschnittstelle, die es Benutzern ermöglicht, über Sprachbefehle mit benutzerdefinierten KI-Agenten zu interagieren und eine natürliche und intuitive Möglichkeit bietet, Automatisierungen mit Unterstützung für über 60 Sprachen zu steuern.

F5 TTS

FreeText to Speech AI Voice Cloning AI Speech Synthesis

F5-TTS ist ein hochmodernes, nicht-autoregressives Text-zu-Sprache-System, das Flow Matching und Diffusion Transformer-Techniken verwendet, um hochgradig natürliche und ausdrucksstarke Sprache mit Zero-Shot-Sprachklonfähigkeiten zu erzeugen.

Beliebte KI-Tools wie Grok's Text to Speech API

FnKey

FreeText to Speech Voice & Audio Editing

FnKey ist eine schlanke macOS-Menüleistenanwendung, die eine schnelle Sprache-zu-Text-Transkription ermöglicht, indem die Fn-Taste zum Sprechen gedrückt gehalten wird und der transkribierte Text beim Loslassen automatisch eingefügt wird.

Audio player for ChatGPT

FreeText to Speech Voice & Audio Editing

Eine Chrome-Erweiterung, die die Vorlesefunktion von ChatGPT verbessert, indem sie einen benutzerfreundlichen Audioplayer mit grundlegenden Steuerelementen wie Wiedergabe/Pause, Suchleiste und Daueranzeige hinzufügt.

VoiSistant

Free TrialText to Speech Voice & Audio Editing

VoiSistant ist eine umfassende Voice-to-Text-Anwendung, die Spracherkennung, KI-Verbesserung, Übersetzung und Text-to-Speech-Funktionen in einem nahtlosen Workflow kombiniert.

LaterAI

FreeAI Recording &Summarizer Text to Speech

Later ist eine KI-gestützte Read-it-Later-App, mit der Sie Artikel speichern, sie in einer ablenkungsfreien Umgebung lesen und sie mit natürlich klingenden KI-Stimmen anhören können - und das alles unter Wahrung der vollständigen Privatsphäre durch On-Device-Verarbeitung.

Rangliste

Einreichen & BewerbenNew