Zyphra Zonos

Zyphra Zonos

Zonos는 고충실도 음성 복제, 실시간 생성 및 Apache 2.0 라이선스에 따라 출시된 표현력 있는 음성 기능을 갖춘 두 개의 16억 개의 파라미터 모델(트랜스포머 및 하이브리드)을 특징으로 하는 오픈 소스 텍스트 음성 변환(TTS) 모델 스위트입니다.
https://www.zyphra.com/post/beta-release-of-zonos-v0-1?ref=aipure&utm_source=aipure
Zyphra Zonos

제품 정보

업데이트됨:Feb 16, 2025

Zyphra Zonos 월간 트래픽 동향

Zyphra Zonos은(는) 지난달 5.2k회 방문을 기록했으며, 이는 -5.4%의 약간의 감소을(를) 보여줍니다. 저희 분석에 따르면 이러한 추세는 AI 도구 분야의 일반적인 시장 동향과 일치합니다.
과거 트래픽 보기

Zyphra Zonos이란?

Zonos-v0.1은 Zyphra에서 개발한 최첨단 텍스트 음성 변환 모델 스위트이며, 트랜스포머 모델과 SSM 하이브리드 모델의 두 가지 16억 개의 파라미터 모델을 포함합니다. 2025년 2월에 베타 버전으로 출시되었으며, 주로 영어이지만 여러 언어를 포함하는 약 200,000시간의 음성 데이터로 학습되었습니다. 이 모델은 5~30초의 참조 오디오만으로 음성 복제 기능을 통해 매우 자연스러운 음성을 생성할 수 있으며, 말하기 속도, 음높이, 오디오 품질 및 감정을 제어할 수도 있습니다. 두 모델 모두 Apache 2.0 라이선스에 따라 출시되어 연구 및 개발에 완전히 액세스할 수 있습니다.

Zyphra Zonos의 주요 기능

Zyphra Zonos는 Apache 2.0 라이선스로 배포된 2개의 16억 파라미터 모델(트랜스포머 및 SSM 하이브리드)을 특징으로 하는 최첨단 텍스트 음성 변환(TTS) 시스템입니다. 고충실도 음성 복제 기능, 다국어 지원 및 감정, 말하기 속도, 음높이를 포함한 다양한 음성 특성에 대한 표현 제어를 통해 실시간 음성 생성을 제공합니다. 이 시스템은 고품질 44KHz 오디오를 출력하고 오픈 소스 모델 가중치와 상용 API 서비스를 모두 제공합니다.
고충실도 음성 복제: 단 5~30초의 음성 샘플만 사용하여 고충실도로 음성을 복제할 수 있습니다.
표현 제어: 말하기 속도, 음높이, 오디오 품질 및 감정(슬픔, 두려움, 분노, 행복, 놀라움)에 대한 세밀한 제어 제공
다국어 지원: 고품질 음성 합성으로 영어, 중국어, 일본어, 프랑스어, 스페인어 및 독일어를 포함한 여러 언어 지원
이중 아키텍처: 트랜스포머 및 SSM 하이브리드 모델을 모두 특징으로 하며, 다양한 성능 특성 및 품질 절충안 제공

Zyphra Zonos의 사용 사례

콘텐츠 제작: 크리에이터가 비디오, 팟캐스트 및 오디오북을 위한 맞춤형 음성으로 음성 해설 및 내레이션을 생성할 수 있도록 지원
접근성 솔루션: 시각 장애가 있는 사용자를 위해 자연스럽고 표현력이 풍부한 음성 출력을 제공하는 텍스트 음성 변환 서비스 제공
언어 학습: 다국어로 원어민 수준의 발음을 제공하여 언어 교육 지원
가상 어시스턴트: 자연스럽고 감정적으로 적절한 음성 응답으로 대화형 AI 시스템 강화

장점

Apache 2.0 라이선스에 따른 오픈 소스 가용성
독점 솔루션과 일치하거나 능가하는 고품질 출력
경쟁력 있는 가격과 무료 티어가 있는 유연한 API

단점

생성 시작/종료 시 오디오 인공물의 농도가 더 높음
높은 비트 전송률 요구 사항으로 인해 추론 속도가 느림
분포 외 문장과의 텍스트 정렬 문제 발생

Zyphra Zonos 사용 방법

필수 구성 요소 설치: Ubuntu에서 음소화하기 위해 eSpeak 라이브러리를 설치하고 pip를 통해 uv를 설치합니다. 'pip install -U uv'
리포지토리 복제: 'git clone https://github.com/Zyphra/Zonos.git'를 사용하여 Zonos 리포지토리를 복제하고 디렉토리로 cd합니다. 'cd Zonos'
배포 방법 선택: Gradio 인터페이스의 경우: 'docker compose up' OR 개발의 경우: 'docker build -t Zonos .'
필수 라이브러리 가져오기: torch, torchaudio 및 필요한 Zonos 모듈을 가져옵니다. 'import torch, torchaudio, from zonos.model import Zonos, from zonos.conditioning import make_cond_dict'
모델 로드: Zonos.from_pretrained()를 사용하여 트랜스포머 모델('Zyphra/Zonos-v0.1-transformer') 또는 하이브리드 모델('Zyphra/Zonos-v0.1-hybrid')을 로드하고 장치(예: 'cuda')를 지정합니다.
오디오 입력 준비: torchaudio.load()를 사용하여 참조 오디오 파일을 로드하여 음성 복제를 위한 화자 임베딩을 만듭니다.
화자 임베딩 만들기: model.make_speaker_embedding()을 사용하여 입력 오디오에서 화자 임베딩을 생성합니다.
조건 설정: make_cond_dict()를 사용하여 텍스트, 화자 임베딩, 언어 및 감정, 말하기 속도 등과 같은 기타 선택적 파라미터로 조건 사전을 만듭니다.
오디오 생성: model.prepare_conditioning(), model.generate() 및 model.autoencoder.decode()를 사용하여 조건을 준비하고 오디오 코드를 생성하고 파형으로 디코딩합니다.
출력 저장: 적절한 샘플링 속도로 torchaudio.save()를 사용하여 생성된 오디오를 저장합니다.

Zyphra Zonos 자주 묻는 질문

Zonos-v0.1은 Zyphra에서 출시한 표현력이 풍부한 텍스트 음성 변환(TTS) 모델 쌍으로, 16억 개의 트랜스포머와 고음질 음성 복제 기능을 갖춘 16억 개의 하이브리드 모델을 특징으로 합니다. 두 모델 모두 Apache 2.0 라이선스에 따라 출시되었습니다.

Zyphra Zonos 웹사이트 분석

Zyphra Zonos 트래픽 및 순위
5.2K
월간 방문자 수
#3719544
전 세계 순위
-
카테고리 순위
트래픽 트렌드: Nov 2024-Jan 2025
Zyphra Zonos 사용자 인사이트
00:00:20
평균 방문 시간
2.02
방문당 페이지 수
36.6%
사용자 이탈률
Zyphra Zonos의 상위 지역
  1. US: 58.68%

  2. ID: 23.61%

  3. DE: 8.37%

  4. JP: 6.69%

  5. HK: 2.64%

  6. Others: NAN%

Zyphra Zonos와(과) 유사한 최신 AI 도구

MicVoice.Ai
MicVoice.Ai
MicVoice.Ai는 작성된 텍스트를 17개 이상의 언어를 지원하는 5000개 이상의 사실적인 AI 음성으로 고품질의 자연스러운 음성으로 변환하는 올인원 AI 음성 생성기 플랫폼입니다.
Narrai
Narrai
Narrai는 관련 스크립트를 자동으로 생성하고 여러 내레이터 페르소나를 제공하여 짧은 비디오에 즉시 음성 내레이션과 배경 음악을 생성하는 AI 기반 모바일 앱입니다.
Vagent
Vagent
Vagent는 사용자가 음성 명령을 통해 맞춤형 AI 에이전트와 상호작용할 수 있도록 하는 경량 음성 인터페이스로, 60개 이상의 언어를 지원하며 자동화를 제어하는 자연스럽고 직관적인 방법을 제공합니다.
F5 TTS
F5 TTS
F5-TTS는 Flow Matching과 Diffusion Transformer 기술을 사용하여 제로샷 음성 클로닝 기능으로 매우 자연스럽고 표현력이 풍부한 음성을 생성하는 최첨단 비자기 회귀 텍스트-음성 변환 시스템입니다.