Câu hỏi Thường gặp về ChatTTS Me

Question 1

ChatTTS là gì?

Accepted Answer

ChatTTS là một mô hình chuyển đổi văn bản thành giọng nói được thiết kế đặc biệt cho các tình huống trò chuyện như chatbot và trợ lý ảo. Nó hỗ trợ tiếng Anh và tiếng Trung, và được huấn luyện trên hơn 100.000 giờ dữ liệu để tạo ra giọng nói tự nhiên, biểu cảm.

Question 2

Các tính năng chính của ChatTTS là gì?

Accepted Answer

Các tính năng chính bao gồm: tối ưu hóa cho các tác vụ dựa trên đối thoại, hỗ trợ nhiều ngôn ngữ (tiếng Anh và tiếng Trung), kiểm soát chi tiết các đặc điểm ngữ điệu như tiếng cười và khoảng lặng, và ngữ điệu vượt trội so với hầu hết các mô hình TTS mã nguồn mở.

Question 3

Cần bao nhiêu bộ nhớ GPU để sử dụng ChatTTS?

Accepted Answer

Để sử dụng cho một đoạn âm thanh 30 giây, cần ít nhất 4GB bộ nhớ GPU. Mô hình có thể tạo ra âm thanh tương ứng với khoảng 7 token ngữ nghĩa mỗi giây trên GPU 4090, với Hệ số Thời gian Thực (RTF) khoảng 0.3.

Question 4

ChatTTS có phải là mã nguồn mở không?

Accepted Answer

Có một phiên bản mã nguồn mở của ChatTTS có sẵn trên HuggingFace. Phiên bản này đã được huấn luyện trên 40.000 giờ dữ liệu nhưng chưa trải qua Tuning Tinh chỉnh Có Giám sát (SFT).

Question 5

ChatTTS có thể kiểm soát cảm xúc hay các yếu tố khác ngoài tiếng cười không?

Accepted Answer

Hiện tại, các đơn vị kiểm soát cấp token duy nhất trong ChatTTS là [laugh], [uv_break], và [lbreak]. Các phiên bản tương lai có thể bao gồm thêm khả năng kiểm soát cảm xúc.

Question 6

Làm thế nào để tôi có thể sử dụng ChatTTS trong dự án của mình?

Accepted Answer

Bạn có thể nhập ChatTTS và sử dụng phương thức chat.infer với văn bản của bạn. Các ví dụ sử dụng chi tiết hơn có thể có sẵn trong tài liệu của kho lưu trữ hoặc các tệp ví dụ.

ChatTTS Me Cách sử dụng

Thông tin thêm

Cách Sử dụng ChatTTS Me