Fish Speech 사용법
Fish Speech는 중국어, 일본어 및 영어로 고품질의 자연스러운 음성을 생성할 수 있는 오픈 소스 다국어 텍스트-음성 변환 모델로, 사용자 정의 가능한 음성과 감정을 제공합니다.
더 보기Fish Speech 사용 방법
종속성 설치: 다음 명령을 실행하여 필요한 패키지를 설치합니다: pip3 install torch torchvision torchaudio
가상 환경 생성: conda를 사용하여 Python 3.10 가상 환경을 생성합니다: conda create -n fish-speech python=3.10
환경 활성화: 가상 환경을 활성화합니다: conda activate fish-speech
Fish Speech 설치: 다음 명령을 실행하여 Fish Speech를 설치합니다: pip3 install -e .
모델 다운로드: Hugging Face에서 필요한 모델을 다운로드합니다: huggingface-cli download fishaudio/fish-speech-1.2-sft --local-dir checkpoints/fish-speech-1.2-sft
추론 실행: 다음 명령을 실행하여 음성을 생성합니다: python tools/llama/generate.py --text "Your text here" --checkpoint-path "checkpoints/fish-speech-1.2-sft"
오디오 디코딩: VQGAN을 사용하여 생성된 토큰을 오디오로 디코딩합니다: python tools/vqgan/inference.py -i "codes_0.npy" --checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth"
웹 UI 시작 (선택 사항): 다음 명령을 실행하여 웹 인터페이스를 시작합니다: python -m tools.webui --llama-checkpoint-path "checkpoints/fish-speech-1.2-sft" --decoder-checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth"
Fish Speech 자주 묻는 질문
Fish Speech는 Fish Audio에서 개발한 오픈 소스 텍스트 음성 변환(TTS) 모델입니다. 150,000시간의 다국어 오디오 데이터로 훈련되었으며, 중국어, 일본어 및 영어로 고품질 음성을 생성할 수 있습니다.
Fish Speech 월간 트래픽 동향
Fish Speech는 방문자 수가 40.9% 증가하여 694K에 도달했습니다. 3월에 출시된 Fish Speech 1.5는 전 세계 사용자들에게 가장 사실적인 음성 복제 기능을 제공하며, 이는 이러한 성장에 기여했을 것으로 보입니다. 또한, 플랫폼의 13개 언어 지원과 음성 활동 감지 기능이 사용자 기반을 확대하고 사용자 참여도를 향상시켰을 것으로 보입니다.
과거 트래픽 보기
더 보기