Grok's Text to Speech API

Grok's Text to Speech API

Grok的文本转语音API是一项开发人员服务,可将文本转换为自然、富有表现力的语音,支持5种不同的声音、20多种语言和内联语音标签,以便对交付和音调进行精细控制。
https://x.ai/api/voice?ref=producthunt&utm_source=aipure#text-to-speech
Grok's Text to Speech API

产品信息

更新于:2026年03月20日

Grok's Text to Speech API 月度流量趋势

Grok's Text to Speech API 上个月收到了 22.4m 次访问,显示出 47% 的适度增长。根据我们的分析,这一趋势与人工智能工具领域的典型市场动态相符。
查看历史流量

什么是 Grok's Text to Speech API

Grok的文本转语音API由xAI发布,是一种先进的文本转语音解决方案,使开发人员能够从文本输入生成高质量、听起来自然的语音。该API旨在满足跨内容创作、可访问性和开发人员应用中对表现力丰富的音频生成的需求。它通过向API端点发送单个POST请求提供了一个简单的集成过程,只需文本输入、语音选择和语言参数即可生成音频输出。

Grok's Text to Speech API 的主要功能

Grok的文本转语音API是一项强大的服务,可将文本转换为听起来自然的语音,具有5种不同的语音选项(Eve、Ara、Leo、Rex、Sal),并支持20多种语言并具有自动检测功能。该API通过用于暂停、笑声、耳语和强调的内联语音标签提供细粒度控制,同时提供多种输出格式和采样率。每100万个字符4.20美元的价格,为构建语音应用程序的开发人员提供了具有竞争力的价格。
富有表现力的语音选项: 五种不同的语音个性,具有独特的特征 - Ara(热情、友好)、Eve(充满活力、乐观)、Rex(自信、清晰)、Sal(流畅、平衡)和Leo(权威、强大)
内联语音控制: 使用内联标签对语音传递进行高级控制,以实现暂停、笑声、耳语、强调和其他表达元素
多语言支持: 支持20多种语言,具有自动语言检测功能,并且在发音和方言方面具有母语水平的熟练程度
灵活的音频格式: 多种输出格式和采样率,从8000 Hz到48000 Hz,适用于电话、语音识别和专业音频应用程序

Grok's Text to Speech API 的使用场景

内容创作: 为视频、播客和其他数字内容生成自然的画外音,具有富有表现力的交付和多种语音选项
客户支持: 构建交互式语音应答系统和具有听起来自然的响应的自动化客户服务代理
辅助功能解决方案: 为视障用户或喜欢音频消费的用户创建书面内容的音频版本
游戏和娱乐: 为游戏角色和交互式娱乐应用程序生成动态语音内容

优点

每100万个字符4.20美元的具有竞争力的价格
通过内联标签丰富地控制语音表达
与特斯拉的生态系统集成,并具有更广泛的应用潜力

缺点

每个团队最多100个并发请求
没有用于细粒度控制语音韵律参数的专用功能
相对较新的服务,具有不断发展的功能和能力

如何使用 Grok's Text to Speech API

获取API密钥: 通过从xAI获取API密钥,在您的环境变量或.env文件中设置XAI_API_KEY
安装依赖: 安装所需的库,如Python的\'requests\'或使用JavaScript的fetch
发出API请求: 将带有API密钥的POST请求发送到https://api.x.ai/v1/tts,并在Authorization标头中包含API密钥,并将Content-Type设置为application/json
配置请求正文: 在JSON正文中包含\'text\'参数,其中包含您要转换为语音的文本。可以选择从可用选项中指定语音:eve、ara、rex、sal、leo
处理响应: 处理将以您指定的格式(默认为wav)返回的音频响应。根据需要保存或流式传输音频
添加语音标签(可选): 使用内联语音标签来控制表达,如[cheerful]、[whisper],或添加停顿以获得更自然的语音
监控使用情况: 跟踪您的使用情况,因为定价为每100万个字符4.20美元,速率限制为每分钟600个请求或每秒10个请求

Grok's Text to Speech API 常见问题

Grok TTS API是xAI的开发者服务,通过单个API调用将文本转换为语音音频。它支持5种声音、20种语言、富有表现力的语音标签以及包括MP3、WAV、PCM和电话格式在内的多种音频编解码器。目前处于Beta测试阶段。

Grok's Text to Speech API 网站分析

Grok's Text to Speech API 流量和排名
22.4M
每月访问量
#2580
全球排名
#13
类别排名
流量趋势:Nov 2024-Oct 2025
Grok's Text to Speech API 用户洞察
00:02:55
平均访问时长
2.97
每次访问页数
27.98%
用户跳出率
Grok's Text to Speech API 的热门地区
  1. US: 26.62%

  2. KR: 9.73%

  3. IN: 4.62%

  4. JP: 3.15%

  5. HK: 2.99%

  6. Others: 52.89%

与 Grok's Text to Speech API 类似的最新 AI 工具

MicVoice.Ai
MicVoice.Ai
MicVoice.Ai是一个全方位的AI语音生成平台,将书面文本转换为高质量、自然的语音,支持17多种语言,提供超过5000种逼真的AI语音。
Narrai
Narrai
Narrai是一款AI驱动的移动应用,通过自动生成相关剧本并提供多种叙述者角色,即时为短视频创建语音旁白和背景音乐。
Vagent
Vagent
Vagent是一个轻量级的语音接口,使用户可以通过语音命令与自定义AI代理互动,提供了一种自然和直观的方式来控制自动化,支持60多种语言。
F5 TTS
F5 TTS
F5-TTS 是一种最先进的非自回归文本转语音系统,使用 Flow Matching 和 Diffusion Transformer 技术生成高度自然和富有表现力的语音,具有零样本语音克隆功能。