Zyphra Zonos

Zyphra Zonos

Zonos là một bộ mô hình chuyển văn bản thành giọng nói (TTS) mã nguồn mở có hai mô hình tham số 1,6B (biến đổi và kết hợp) với khả năng nhân bản giọng nói có độ trung thực cao, tạo thời gian thực và khả năng giọng nói biểu cảm được phát hành theo giấy phép Apache 2.0.
https://www.zyphra.com/post/beta-release-of-zonos-v0-1?ref=aipure&utm_source=aipure
Zyphra Zonos

Thông tin Sản phẩm

Đã cập nhật:May 9, 2025

Xu hướng Lưu lượng Truy cập Hàng tháng của Zyphra Zonos

Zyphra Zonos đã trải qua sự sụt giảm 43,9% về lưu lượng truy cập, giảm từ 317,8K xuống còn 178,5K lượt truy cập. Mặc dù đã giới thiệu hệ thống AI ZR1-1.5B để giải quyết các bài toán phức tạp và các thách thức lập trình phần mềm nâng cao, sự sụt giảm đáng kể này cho thấy những cập nhật này đã không tạo ra tác động đáng kể đến sự tương tác của người dùng.

Xem lịch sử lưu lượng truy cập

Zyphra Zonos là gì

Zonos-v0.1 là một bộ mô hình chuyển văn bản thành giọng nói tiên tiến được phát triển bởi Zyphra, bao gồm hai mô hình tham số 1,6B - một mô hình biến đổi và một mô hình kết hợp SSM. Được phát hành ở phiên bản beta vào tháng 2 năm 2025, nó được đào tạo trên khoảng 200.000 giờ dữ liệu giọng nói bao gồm nhiều ngôn ngữ, mặc dù chủ yếu là tiếng Anh. Các mô hình có thể tạo ra giọng nói rất tự nhiên với khả năng nhân bản giọng nói chỉ từ 5-30 giây âm thanh tham khảo, đồng thời cung cấp khả năng kiểm soát tốc độ nói, cao độ, chất lượng âm thanh và cảm xúc. Cả hai mô hình đều được phát hành theo giấy phép Apache 2.0, giúp chúng hoàn toàn có thể truy cập được cho nghiên cứu và phát triển.

Các Tính năng Chính của Zyphra Zonos

Zyphra Zonos là một hệ thống chuyển văn bản thành giọng nói (TTS) tiên tiến, nổi bật với hai mô hình tham số 1.6B (transformer và hybrid SSM) được phát hành theo giấy phép Apache 2.0. Nó cung cấp khả năng nhân bản giọng nói với độ trung thực cao, hỗ trợ đa ngôn ngữ và tạo giọng nói theo thời gian thực với khả năng kiểm soát biểu cảm đối với các đặc điểm giọng nói khác nhau bao gồm cảm xúc, tốc độ nói và cao độ. Hệ thống xuất ra âm thanh 44KHz chất lượng cao và cung cấp cả trọng số mô hình nguồn mở và dịch vụ API thương mại.
Nhân Bản Giọng Nói Độ Trung Thực Cao: Có thể nhân bản giọng nói với độ trung thực cao chỉ bằng 5-30 giây mẫu giọng nói
Kiểm Soát Biểu Cảm: Cung cấp khả năng kiểm soát chi tiết tốc độ nói, cao độ, chất lượng âm thanh và cảm xúc (buồn bã, sợ hãi, giận dữ, hạnh phúc, ngạc nhiên)
Hỗ Trợ Đa Ngôn Ngữ: Hỗ trợ nhiều ngôn ngữ bao gồm tiếng Anh, tiếng Trung, tiếng Nhật, tiếng Pháp, tiếng Tây Ban Nha và tiếng Đức với khả năng tổng hợp giọng nói chất lượng cao
Kiến Trúc Kép: Có cả mô hình hybrid transformer và SSM, cung cấp các đặc tính hiệu suất và sự đánh đổi chất lượng khác nhau

Các Trường hợp Sử dụng của Zyphra Zonos

Sáng Tạo Nội Dung: Cho phép người sáng tạo tạo ra các đoạn thuyết minh và tường thuật bằng giọng nói tùy chỉnh cho video, podcast và sách nói
Giải Pháp Hỗ Trợ Tiếp Cận: Cung cấp dịch vụ chuyển văn bản thành giọng nói cho người dùng khiếm thị với đầu ra giọng nói tự nhiên và biểu cảm
Học Tập Ngôn Ngữ: Hỗ trợ giáo dục ngôn ngữ bằng cách cung cấp cách phát âm chất lượng như người bản xứ bằng nhiều ngôn ngữ
Trợ Lý Ảo: Cung cấp năng lượng cho các hệ thống AI đàm thoại với phản hồi bằng giọng nói nghe tự nhiên và phù hợp về mặt cảm xúc

Ưu điểm

Khả năng cung cấp mã nguồn mở theo giấy phép Apache 2.0
Đầu ra chất lượng cao phù hợp hoặc vượt quá các giải pháp độc quyền
API linh hoạt với giá cả cạnh tranh và cấp miễn phí

Nhược điểm

Nồng độ artefakt âm thanh cao hơn khi bắt đầu/kết thúc tạo
Suy luận chậm hơn do yêu cầu bitrate cao
Các vấn đề về căn chỉnh văn bản không thường xuyên với các câu ngoài phân phối

Cách Sử dụng Zyphra Zonos

Cài đặt các điều kiện tiên quyết: Cài đặt thư viện eSpeak để phiên âm trên Ubuntu và cài đặt uv qua pip: 'pip install -U uv'
Sao chép kho lưu trữ: Sao chép kho lưu trữ Zonos bằng cách sử dụng: 'git clone https://github.com/Zyphra/Zonos.git' và cd vào thư mục: 'cd Zonos'
Chọn phương pháp triển khai: Đối với giao diện Gradio: 'docker compose up' HOẶC để phát triển: 'docker build -t Zonos .'
Nhập các thư viện cần thiết: Nhập torch, torchaudio và các mô-đun Zonos cần thiết: 'import torch, torchaudio, from zonos.model import Zonos, from zonos.conditioning import make_cond_dict'
Tải mô hình: Tải mô hình biến đổi ('Zyphra/Zonos-v0.1-transformer') hoặc mô hình kết hợp ('Zyphra/Zonos-v0.1-hybrid') bằng Zonos.from_pretrained() và chỉ định thiết bị (ví dụ: 'cuda')
Chuẩn bị đầu vào âm thanh: Tải tệp âm thanh tham khảo bằng torchaudio.load() để tạo nhúng loa để nhân bản giọng nói
Tạo nhúng loa: Tạo nhúng loa từ âm thanh đầu vào bằng model.make_speaker_embedding()
Đặt điều kiện: Tạo từ điển điều kiện với văn bản, nhúng loa, ngôn ngữ và các tham số tùy chọn khác như cảm xúc, tốc độ nói, v.v. bằng make_cond_dict()
Tạo âm thanh: Chuẩn bị điều kiện, tạo mã âm thanh và giải mã thành dạng sóng bằng model.prepare_conditioning(), model.generate() và model.autoencoder.decode()
Lưu đầu ra: Lưu âm thanh được tạo bằng torchaudio.save() với tốc độ lấy mẫu thích hợp

Câu hỏi Thường gặp về Zyphra Zonos

Zonos-v0.1 là một cặp mô hình chuyển văn bản thành giọng nói (TTS) biểu cảm được phát hành bởi Zyphra, bao gồm một transformer 1.6B và một mô hình lai 1.6B với khả năng nhân bản giọng nói có độ trung thực cao. Cả hai mô hình đều được phát hành theo giấy phép Apache 2.0.

Phân tích Trang web Zyphra Zonos

Lưu lượng truy cập & Xếp hạng của Zyphra Zonos
178.5K
Lượt truy cập hàng tháng
#173145
Xếp hạng Toàn cầu
#391
Xếp hạng Danh mục
Xu hướng Lưu lượng truy cập: Jan 2025-Apr 2025
Thông tin chi tiết về Người dùng Zyphra Zonos
00:02:16
Thời lượng Truy cập Trung bình
5.22
Số trang mỗi lần Truy cập
38.63%
Tỷ lệ Thoát của Người dùng
Khu vực Hàng đầu của Zyphra Zonos
  1. US: 39.01%

  2. KR: 10.04%

  3. IN: 9.79%

  4. NG: 5.5%

  5. DE: 4.53%

  6. Others: 31.13%

Công cụ AI Mới nhất Tương tự Zyphra Zonos

MicVoice.Ai
MicVoice.Ai
MicVoice.Ai là một nền tảng tạo giọng nói AI tất cả trong một biến đổi văn bản viết thành giọng nói tự nhiên, chất lượng cao với hơn 5000 giọng nói AI thực tế hỗ trợ hơn 17 ngôn ngữ.
Narrai
Narrai
Narrai là một ứng dụng di động sử dụng AI giúp tạo ra giọng kể và nhạc nền ngay lập tức cho các video ngắn bằng cách tự động tạo kịch bản liên quan và cung cấp nhiều nhân vật người dẫn chuyện.
Vagent
Vagent
Vagent là một giao diện giọng nói nhẹ nhàng cho phép người dùng tương tác với các đại lý AI tùy chỉnh thông qua các lệnh giọng nói, cung cấp một cách tự nhiên và trực quan để kiểm soát các quy trình tự động hóa với hỗ trợ cho hơn 60 ngôn ngữ.
F5 TTS
F5 TTS
F5-TTS là một hệ thống chuyển văn bản thành giọng nói tiên tiến, không tự hồi tiếp, sử dụng các kỹ thuật Flow Matching và Diffusion Transformer để tạo ra giọng nói rất tự nhiên và biểu cảm với khả năng nhân giọng nói zero-shot.