Zonos는 어떤 언어를 지원합니까?

Zonos는 주로 영어 데이터로 훈련되었지만 중국어, 일본어, 프랑스어, 스페인어, 독일어를 포함한 여러 언어를 지원합니다. 그러나 훈련 데이터 세트의 다른 언어에 대한 성능은 강력하다고 간주되지 않습니다.

Zonos 사용에 대한 가격 옵션은 무엇입니까?

Zonos는 분당 0.02달러의 정액 요금을 제공하며, 월 100분 무료, 월 5달러에 300분을 제공하는 Pro 등급, 맞춤형 Enterprise 등급을 포함한 구독 옵션을 제공합니다. 모든 등급에는 무제한 음성 복제 및 동시 생성에 대한 제한이 없습니다.

Zonos의 주요 기능은 무엇입니까?

Zonos는 5~30초 클립에서 고음질 음성 복제, 표현력이 풍부한 음성 생성, 발화 속도, 음높이, 오디오 품질 및 감정(슬픔, 두려움, 분노, 행복, 놀라움)을 기반으로 한 컨디셔닝, 기본 44KHz 오디오 출력을 제공합니다. API와 모델 놀이터를 통해 액세스할 수 있습니다.

Zonos의 주요 제한 사항은 무엇입니까?

이 모델에는 생성 시작 및 종료 시 오디오 인공물(기침, 클릭, 웃음, 끽끽거리는 소리, 심한 호흡), 단어 건너뛰기 또는 반복과 관련된 잠재적인 텍스트 정렬 문제, 높은 비트 전송률 자동 인코더 요구 사항으로 인한 느린 추론을 포함한 몇 가지 제한 사항이 있습니다.

Zonos에 사용된 훈련 데이터는 얼마나 됩니까?

Zonos-v0.1 모델은 중립적인 음색의 음성(오디오북 내레이션 등)과 표현력이 뛰어난 음성을 포함하여 약 200,000시간의 음성 데이터로 훈련되었습니다.

Zyphra Zonos

WebsiteFreemiumText to Speech AI Voice Cloning

Zonos는 고충실도 음성 복제, 실시간 생성 및 Apache 2.0 라이선스에 따라 출시된 표현력 있는 음성 기능을 갖춘 두 개의 16억 개의 파라미터 모델(트랜스포머 및 하이브리드)을 특징으로 하는 오픈 소스 텍스트 음성 변환(TTS) 모델 스위트입니다.

웹사이트 방문

이 도구 광고하기

https://www.zyphra.com/post/beta-release-of-zonos-v0-1?ref=aipure&utm_source=aipure

개요
분석
동영상
대안

제품 정보

업데이트됨:Jul 15, 2025

Zyphra Zonos 월간 트래픽 동향

Zyphra Zonos는 7월에 68,611회 방문으로 2.9%의 트래픽 감소를 보였습니다. 최근 제품 업데이트 부족과 제한된 마케팅 활동이 이러한 소폭 감소의 원인이 되었을 수 있습니다.

과거 트래픽 보기

Zyphra Zonos이란?

Zonos-v0.1은 Zyphra에서 개발한 최첨단 텍스트 음성 변환 모델 스위트이며, 트랜스포머 모델과 SSM 하이브리드 모델의 두 가지 16억 개의 파라미터 모델을 포함합니다. 2025년 2월에 베타 버전으로 출시되었으며, 주로 영어이지만 여러 언어를 포함하는 약 200,000시간의 음성 데이터로 학습되었습니다. 이 모델은 5~30초의 참조 오디오만으로 음성 복제 기능을 통해 매우 자연스러운 음성을 생성할 수 있으며, 말하기 속도, 음높이, 오디오 품질 및 감정을 제어할 수도 있습니다. 두 모델 모두 Apache 2.0 라이선스에 따라 출시되어 연구 및 개발에 완전히 액세스할 수 있습니다.

Zyphra Zonos의 주요 기능

Zyphra Zonos는 Apache 2.0 라이선스로 배포된 2개의 16억 파라미터 모델(트랜스포머 및 SSM 하이브리드)을 특징으로 하는 최첨단 텍스트 음성 변환(TTS) 시스템입니다. 고충실도 음성 복제 기능, 다국어 지원 및 감정, 말하기 속도, 음높이를 포함한 다양한 음성 특성에 대한 표현 제어를 통해 실시간 음성 생성을 제공합니다. 이 시스템은 고품질 44KHz 오디오를 출력하고 오픈 소스 모델 가중치와 상용 API 서비스를 모두 제공합니다.

고충실도 음성 복제: 단 5~30초의 음성 샘플만 사용하여 고충실도로 음성을 복제할 수 있습니다.

표현 제어: 말하기 속도, 음높이, 오디오 품질 및 감정(슬픔, 두려움, 분노, 행복, 놀라움)에 대한 세밀한 제어 제공

다국어 지원: 고품질 음성 합성으로 영어, 중국어, 일본어, 프랑스어, 스페인어 및 독일어를 포함한 여러 언어 지원

이중 아키텍처: 트랜스포머 및 SSM 하이브리드 모델을 모두 특징으로 하며, 다양한 성능 특성 및 품질 절충안 제공

Zyphra Zonos의 사용 사례

콘텐츠 제작: 크리에이터가 비디오, 팟캐스트 및 오디오북을 위한 맞춤형 음성으로 음성 해설 및 내레이션을 생성할 수 있도록 지원

접근성 솔루션: 시각 장애가 있는 사용자를 위해 자연스럽고 표현력이 풍부한 음성 출력을 제공하는 텍스트 음성 변환 서비스 제공

언어 학습: 다국어로 원어민 수준의 발음을 제공하여 언어 교육 지원

가상 어시스턴트: 자연스럽고 감정적으로 적절한 음성 응답으로 대화형 AI 시스템 강화

장점

Apache 2.0 라이선스에 따른 오픈 소스 가용성

독점 솔루션과 일치하거나 능가하는 고품질 출력

경쟁력 있는 가격과 무료 티어가 있는 유연한 API

단점

생성 시작/종료 시 오디오 인공물의 농도가 더 높음

높은 비트 전송률 요구 사항으로 인해 추론 속도가 느림

분포 외 문장과의 텍스트 정렬 문제 발생

Zyphra Zonos 사용 방법

필수 구성 요소 설치: Ubuntu에서 음소화하기 위해 eSpeak 라이브러리를 설치하고 pip를 통해 uv를 설치합니다. 'pip install -U uv'

리포지토리 복제: 'git clone https://github.com/Zyphra/Zonos.git'를 사용하여 Zonos 리포지토리를 복제하고 디렉토리로 cd합니다. 'cd Zonos'

배포 방법 선택: Gradio 인터페이스의 경우: 'docker compose up' OR 개발의 경우: 'docker build -t Zonos .'

필수 라이브러리 가져오기: torch, torchaudio 및 필요한 Zonos 모듈을 가져옵니다. 'import torch, torchaudio, from zonos.model import Zonos, from zonos.conditioning import make_cond_dict'

모델 로드: Zonos.from_pretrained()를 사용하여 트랜스포머 모델('Zyphra/Zonos-v0.1-transformer') 또는 하이브리드 모델('Zyphra/Zonos-v0.1-hybrid')을 로드하고 장치(예: 'cuda')를 지정합니다.

오디오 입력 준비: torchaudio.load()를 사용하여 참조 오디오 파일을 로드하여 음성 복제를 위한 화자 임베딩을 만듭니다.

화자 임베딩 만들기: model.make_speaker_embedding()을 사용하여 입력 오디오에서 화자 임베딩을 생성합니다.

조건 설정: make_cond_dict()를 사용하여 텍스트, 화자 임베딩, 언어 및 감정, 말하기 속도 등과 같은 기타 선택적 파라미터로 조건 사전을 만듭니다.

오디오 생성: model.prepare_conditioning(), model.generate() 및 model.autoencoder.decode()를 사용하여 조건을 준비하고 오디오 코드를 생성하고 파형으로 디코딩합니다.

출력 저장: 적절한 샘플링 속도로 torchaudio.save()를 사용하여 생성된 오디오를 저장합니다.

Zyphra Zonos 자주 묻는 질문

Zonos-v0.1은 Zyphra에서 출시한 표현력이 풍부한 텍스트 음성 변환(TTS) 모델 쌍으로, 16억 개의 트랜스포머와 고음질 음성 복제 기능을 갖춘 16억 개의 하이브리드 모델을 특징으로 합니다. 두 모델 모두 Apache 2.0 라이선스에 따라 출시되었습니다.