Fish Speech 사용법

Fish Speech는 중국어, 일본어 및 영어로 고품질의 자연스러운 음성을 생성할 수 있는 오픈 소스 다국어 텍스트-음성 변환 모델로, 사용자 정의 가능한 음성과 감정을 제공합니다.
더 보기

Fish Speech 사용 방법

종속성 설치: 다음 명령을 실행하여 필요한 패키지를 설치합니다: pip3 install torch torchvision torchaudio
가상 환경 생성: conda를 사용하여 Python 3.10 가상 환경을 생성합니다: conda create -n fish-speech python=3.10
환경 활성화: 가상 환경을 활성화합니다: conda activate fish-speech
Fish Speech 설치: 다음 명령을 실행하여 Fish Speech를 설치합니다: pip3 install -e .
모델 다운로드: Hugging Face에서 필요한 모델을 다운로드합니다: huggingface-cli download fishaudio/fish-speech-1.2-sft --local-dir checkpoints/fish-speech-1.2-sft
추론 실행: 다음 명령을 실행하여 음성을 생성합니다: python tools/llama/generate.py --text "Your text here" --checkpoint-path "checkpoints/fish-speech-1.2-sft"
오디오 디코딩: VQGAN을 사용하여 생성된 토큰을 오디오로 디코딩합니다: python tools/vqgan/inference.py -i "codes_0.npy" --checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth"
웹 UI 시작 (선택 사항): 다음 명령을 실행하여 웹 인터페이스를 시작합니다: python -m tools.webui --llama-checkpoint-path "checkpoints/fish-speech-1.2-sft" --decoder-checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth"

Fish Speech 자주 묻는 질문

Fish Speech는 Fish Audio에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 모델입니다. 150,000시간의 다국어 오디오 데이터로 훈련되었으며, 중국어, 일본어 및 영어로 고품질 음성을 생성할 수 있습니다.

Fish Speech 월간 트래픽 동향

Fish Speech는 트래픽이 8.1% 감소하여 493K의 방문을 기록했습니다. 특별한 제품 업데이트가 없는 상황에서, 이러한 감소는 전반적인 시장 변동과 다른 AI 음성합성 플랫폼들의 경쟁 증가로 인한 것으로 보입니다.

과거 트래픽 보기

Fish Speech와(과) 유사한 최신 AI 도구

MicVoice.Ai
MicVoice.Ai
MicVoice.Ai는 작성된 텍스트를 17개 이상의 언어를 지원하는 5000개 이상의 사실적인 AI 음성으로 고품질의 자연스러운 음성으로 변환하는 올인원 AI 음성 생성기 플랫폼입니다.
Narrai
Narrai
Narrai는 관련 스크립트를 자동으로 생성하고 여러 내레이터 페르소나를 제공하여 짧은 비디오에 즉시 음성 내레이션과 배경 음악을 생성하는 AI 기반 모바일 앱입니다.
Vagent
Vagent
Vagent는 사용자가 음성 명령을 통해 맞춤형 AI 에이전트와 상호작용할 수 있도록 하는 경량 음성 인터페이스로, 60개 이상의 언어를 지원하며 자동화를 제어하는 자연스럽고 직관적인 방법을 제공합니다.
F5 TTS
F5 TTS
F5-TTS는 Flow Matching과 Diffusion Transformer 기술을 사용하여 제로샷 음성 클로닝 기능으로 매우 자연스럽고 표현력이 풍부한 음성을 생성하는 최첨단 비자기 회귀 텍스트-음성 변환 시스템입니다.