Grok TTS API có giá bao nhiêu?

API có giá 4,20 đô la cho mỗi 1 triệu ký tự trong giai đoạn Beta, với giới hạn tốc độ là 600 yêu cầu mỗi phút và 10 yêu cầu mỗi giây cho mỗi nhóm.

Những giọng nói nào có sẵn trong Grok TTS?

Có năm giọng nói: Eve (năng động và lạc quan), Ara (ấm áp và thân thiện), Rex (tự tin và chuyên nghiệp), Sal (mượt mà và linh hoạt) và Leo (uy quyền và mạnh mẽ). Mỗi giọng nói được tối ưu hóa cho các loại nội dung cụ thể.

Grok TTS có hỗ trợ các thẻ biểu cảm không?

Có, Grok TTS hỗ trợ các thẻ nội tuyến để thêm các biểu cảm như tiếng cười, tiếng thì thầm, tạm dừng, v.v. Các thẻ này có thể được nhúng trực tiếp vào văn bản để kiểm soát cách phát âm mà không cần thêm các tham số API.

Grok TTS có phù hợp cho các ứng dụng điện thoại không?

Có, API xuất ra codec G.711 μ-law và A-law ở 8 kHz, là các định dạng tiêu chuẩn cho hệ thống điện thoại. Nó hỗ trợ nhiều định dạng âm thanh được tối ưu hóa cho các trường hợp sử dụng khác nhau bao gồm điện thoại, web và hậu kỳ.

Độ dài văn bản tối đa cho Grok TTS là bao nhiêu?

Điểm cuối POST tiêu chuẩn chấp nhận tối đa 15.000 ký tự cho mỗi yêu cầu với thời gian chờ là 15 phút. Điểm cuối WebSocket không có giới hạn tổng số ký tự, mặc dù các tin nhắn delta riêng lẻ bị giới hạn ở 15.000 ký tự.

Grok's Text to Speech API

WebsitePaidText to Speech AI Voice Assistants

API Chuyển văn bản thành giọng nói của Grok là một dịch vụ dành cho nhà phát triển, chuyển đổi văn bản thành giọng nói tự nhiên, biểu cảm với sự hỗ trợ cho 5 giọng nói riêng biệt, hơn 20 ngôn ngữ và các thẻ giọng nói nội tuyến để kiểm soát chi tiết việc truyền tải và tông giọng.

Truy cập Trang web

Quảng Cáo Công Cụ Này

https://x.ai/api/voice?ref=producthunt&utm_source=aipure#text-to-speech

Tổng quan
Phân tích
Video
Các lựa chọn thay thế

Thông tin Sản phẩm

Đã cập nhật:Jun 9, 2026

Xu hướng Lưu lượng Truy cập Hàng tháng của Grok's Text to Speech API

API Chuyển văn bản thành giọng nói của Grok đạt được 22,3 triệu lượt truy cập với tỷ lệ tăng trưởng 47,0%, cho thấy mức tăng trưởng vừa phải. Sự gia tăng này có khả năng được thúc đẩy bởi việc ra mắt Grok Imagine Phiên bản 0.9 vào ngày 5 tháng 10 năm 2025, mở rộng khả năng đa phương thức của Grok để bao gồm chuyển đổi văn bản thành video nâng cao và tạo hình ảnh, làm tăng đáng kể khả năng hiển thị nền tảng và sự tương tác của nhà phát triển.

Xem lịch sử lưu lượng truy cập

Grok's Text to Speech API là gì

Được phát hành bởi xAI, API Chuyển văn bản thành giọng nói của Grok là một giải pháp chuyển văn bản thành giọng nói tinh vi, cho phép các nhà phát triển tạo ra giọng nói chất lượng cao, nghe tự nhiên từ đầu vào văn bản. API được thiết kế để đáp ứng nhu cầu tạo âm thanh biểu cảm trên các ứng dụng tạo nội dung, trợ năng và ứng dụng dành cho nhà phát triển. Nó cung cấp một quy trình tích hợp đơn giản thông qua một yêu cầu POST duy nhất đến điểm cuối API, chỉ yêu cầu đầu vào văn bản, lựa chọn giọng nói và các tham số ngôn ngữ để tạo ra đầu ra âm thanh.

Các Tính năng Chính của Grok's Text to Speech API

API Chuyển văn bản thành giọng nói của Grok là một dịch vụ mạnh mẽ chuyển đổi văn bản thành giọng nói tự nhiên với 5 tùy chọn giọng nói riêng biệt (Eve, Ara, Leo, Rex, Sal) và hỗ trợ hơn 20 ngôn ngữ với khả năng tự động phát hiện. API cung cấp khả năng kiểm soát chi tiết thông qua các thẻ giọng nói nội tuyến để tạm dừng, cười, thì thầm và nhấn mạnh, đồng thời cung cấp nhiều định dạng đầu ra và tốc độ lấy mẫu. Với mức giá $4,20 cho mỗi 1 triệu ký tự, nó cung cấp mức giá cạnh tranh cho các nhà phát triển xây dựng ứng dụng thoại.

Tùy chọn giọng nói biểu cảm: Năm tính cách giọng nói riêng biệt với các đặc điểm độc đáo - Ara (ấm áp, thân thiện), Eve (năng động, lạc quan), Rex (tự tin, rõ ràng), Sal (mượt mà, cân bằng) và Leo (có thẩm quyền, mạnh mẽ)

Điều khiển giọng nói nội tuyến: Kiểm soát nâng cao việc phân phối giọng nói bằng cách sử dụng các thẻ nội tuyến để tạm dừng, cười, thì thầm, nhấn mạnh và các yếu tố biểu cảm khác

Hỗ trợ đa ngôn ngữ: Hỗ trợ hơn 20 ngôn ngữ với khả năng tự động phát hiện ngôn ngữ và trình độ thông thạo ở cấp độ bản ngữ về cách phát âm và phương ngữ

Định dạng âm thanh linh hoạt: Nhiều định dạng đầu ra và tốc độ lấy mẫu từ 8000 Hz đến 48000 Hz, phù hợp cho điện thoại, nhận dạng giọng nói và các ứng dụng âm thanh chuyên nghiệp

Các Trường hợp Sử dụng của Grok's Text to Speech API

Sáng tạo nội dung: Tạo закадровый giọng nói tự nhiên cho video, podcast và nội dung kỹ thuật số khác với khả năng diễn đạt và nhiều tùy chọn giọng nói

Hỗ trợ khách hàng: Xây dựng hệ thống phản hồi bằng giọng nói tương tác và các tổng đài viên dịch vụ khách hàng tự động với các phản hồi nghe tự nhiên

Giải pháp trợ năng: Tạo phiên bản âm thanh của nội dung bằng văn bản cho người dùng khiếm thị hoặc những người thích tiêu thụ âm thanh

Trò chơi và giải trí: Tạo nội dung giọng nói động cho các nhân vật trong trò chơi và các ứng dụng giải trí tương tác

Ưu điểm

Giá cả cạnh tranh ở mức $4,20 trên 1 triệu ký tự

Kiểm soát phong phú biểu cảm giọng nói thông qua các thẻ nội tuyến

Tích hợp với hệ sinh thái của Tesla và tiềm năng cho các ứng dụng rộng hơn

Nhược điểm

Giới hạn ở 100 yêu cầu đồng thời trên mỗi nhóm

Không có tính năng chuyên dụng để kiểm soát chi tiết các thông số просодии giọng nói

Dịch vụ tương đối mới với các tính năng và khả năng đang phát triển

Cách Sử dụng Grok's Text to Speech API

Lấy API Key: Thiết lập XAI_API_KEY trong các biến môi trường hoặc tệp .env của bạn bằng cách lấy API key từ xAI

Cài đặt Dependencies: Cài đặt các thư viện cần thiết như 'requests' cho Python hoặc sử dụng fetch cho JavaScript

Thực hiện Yêu cầu API: Gửi yêu cầu POST đến https://api.x.ai/v1/tts với API key của bạn trong tiêu đề Authorization và Content-Type là application/json

Cấu hình Request Body: Bao gồm tham số 'text' trong JSON body với văn bản bạn muốn chuyển đổi thành giọng nói. Tùy chọn chỉ định giọng nói từ các tùy chọn có sẵn: eve, ara, rex, sal, leo

Xử lý Phản hồi: Xử lý phản hồi âm thanh sẽ được trả về ở định dạng bạn đã chỉ định (wav là mặc định). Lưu hoặc phát trực tuyến âm thanh khi cần

Thêm Thẻ Giọng nói (Tùy chọn): Sử dụng các thẻ giọng nói nội tuyến để kiểm soát biểu cảm như [vui vẻ], [thì thầm] hoặc thêm khoảng dừng để có giọng nói nghe tự nhiên hơn

Theo dõi Mức sử dụng: Theo dõi mức sử dụng của bạn vì giá là 4,20 đô la cho mỗi 1 triệu ký tự với giới hạn tốc độ là 600 yêu cầu mỗi phút hoặc 10 yêu cầu mỗi giây

Câu hỏi Thường gặp về Grok's Text to Speech API

Grok TTS API là dịch vụ dành cho nhà phát triển của xAI, chuyển đổi văn bản thành âm thanh bằng một lệnh gọi API duy nhất. Nó hỗ trợ 5 giọng nói, 20 ngôn ngữ, các thẻ biểu cảm và nhiều codec âm thanh bao gồm MP3, WAV, PCM và các định dạng điện thoại. Hiện tại nó đang ở giai đoạn Beta.

Bài viết phổ biến

Atoms: Nền tảng AI đa tác nhân biến ý tưởng thành sản phẩm sẵn sàng ra mắt

May 22, 2026

Nano Banana SBTI: Nó là gì, Cách thức hoạt động và Cách sử dụng nó vào năm 2026

Apr 15, 2026

Đánh giá Atoms — Trình tạo sản phẩm AI định nghĩa lại việc tạo nội dung số vào năm 2026

Apr 10, 2026

Kilo Claw: Cách Triển Khai và Sử Dụng AI Agent "Làm-Thay-Bạn" Thực Sự (Cập Nhật 2026)

Apr 3, 2026

Phân tích Trang web Grok's Text to Speech API

Lưu lượng truy cập & Xếp hạng của Grok's Text to Speech API

22.4M

Lượt truy cập hàng tháng

#2580

Xếp hạng Toàn cầu

#13

Xếp hạng Danh mục

Xu hướng Lưu lượng truy cập: Nov 2024-Oct 2025

Thông tin chi tiết về Người dùng Grok's Text to Speech API

00:02:55

Thời lượng Truy cập Trung bình

2.97

Số trang mỗi lần Truy cập

27.98%

Tỷ lệ Thoát của Người dùng

Khu vực Hàng đầu của Grok's Text to Speech API

US: 26.62%

KR: 9.73%

IN: 4.62%

JP: 3.15%

HK: 2.99%

Others: 52.89%

Công cụ AI Mới nhất Tương tự Grok's Text to Speech API

MicVoice.Ai

Free TrialText to Speech AI Voice Changer

MicVoice.Ai là một nền tảng tạo giọng nói AI tất cả trong một biến đổi văn bản viết thành giọng nói tự nhiên, chất lượng cao với hơn 5000 giọng nói AI thực tế hỗ trợ hơn 17 ngôn ngữ.

Narrai

FreemiumAI Script Writing Text to Speech

Narrai là một ứng dụng di động sử dụng AI giúp tạo ra giọng kể và nhạc nền ngay lập tức cho các video ngắn bằng cách tự động tạo kịch bản liên quan và cung cấp nhiều nhân vật người dẫn chuyện.

Vagent

FreeAI Voice Assistants Text to Speech

Vagent là một giao diện giọng nói nhẹ nhàng cho phép người dùng tương tác với các đại lý AI tùy chỉnh thông qua các lệnh giọng nói, cung cấp một cách tự nhiên và trực quan để kiểm soát các quy trình tự động hóa với hỗ trợ cho hơn 60 ngôn ngữ.

F5 TTS

FreeText to Speech AI Voice Cloning AI Speech Synthesis

F5-TTS là một hệ thống chuyển văn bản thành giọng nói tiên tiến, không tự hồi tiếp, sử dụng các kỹ thuật Flow Matching và Diffusion Transformer để tạo ra giọng nói rất tự nhiên và biểu cảm với khả năng nhân giọng nói zero-shot.

Công cụ AI Phổ biến Giống Grok's Text to Speech API

FnKey

FreeText to Speech Voice & Audio Editing

FnKey là một ứng dụng thanh menu macOS nhẹ cho phép phiên âm giọng nói thành văn bản nhanh chóng bằng cách giữ phím Fn để nói và tự động dán văn bản đã phiên âm khi thả ra.

Audio player for ChatGPT

FreeText to Speech Voice & Audio Editing

A Chrome extension that enhances ChatGPT's Read Aloud feature by adding a user-friendly audio player with basic controls like play/pause, seek bar, and duration display.

VoiSistant

Free TrialText to Speech Voice & Audio Editing

VoiSistant là một ứng dụng chuyển giọng nói thành văn bản toàn diện, kết hợp khả năng nhận dạng giọng nói, cải tiến AI, dịch thuật và chuyển văn bản thành giọng nói trong một quy trình làm việc liền mạch.

LaterAI

FreeAI Recording &Summarizer Text to Speech

Later là một ứng dụng đọc sau được hỗ trợ bởi AI cho phép bạn lưu bài viết, đọc chúng trong một môi trường không gây xao nhãng và nghe chúng bằng giọng nói AI tự nhiên - đồng thời duy trì sự riêng tư hoàn toàn với quá trình xử lý trên thiết bị.

Xếp hạng

Đăng & Quảng báNew