Fish Speech Cómo Usar

Fish Speech es un modelo de texto a voz de código abierto y multilingüe capaz de generar voz de alta calidad y sonido natural en chino, japonés e inglés con voces y emociones personalizables.
Ver más

Cómo Usar Fish Speech

Instalar dependencias: Instalar los paquetes requeridos ejecutando: pip3 install torch torchvision torchaudio
Crear entorno virtual: Crear un entorno virtual de Python 3.10 usando conda: conda create -n fish-speech python=3.10
Activar entorno: Activar el entorno virtual: conda activate fish-speech
Instalar Fish Speech: Instalar Fish Speech ejecutando: pip3 install -e .
Descargar modelos: Descargar los modelos requeridos de Hugging Face: huggingface-cli download fishaudio/fish-speech-1.2-sft --local-dir checkpoints/fish-speech-1.2-sft
Ejecutar inferencia: Generar voz ejecutando: python tools/llama/generate.py --text "Tu texto aquí" --checkpoint-path "checkpoints/fish-speech-1.2-sft"
Decodificar audio: Decodificar los tokens generados a audio usando VQGAN: python tools/vqgan/inference.py -i "codes_0.npy" --checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth"
Iniciar interfaz web (opcional): Lanzar la interfaz web ejecutando: python -m tools.webui --llama-checkpoint-path "checkpoints/fish-speech-1.2-sft" --decoder-checkpoint-path "checkpoints/fish-speech-1.2-sft/firefly-gan-vq-fsq-4x1024-42hz-generator.pth"

Preguntas Frecuentes de Fish Speech

Fish Speech es un modelo de texto a voz (TTS) de código abierto desarrollado por Fish Audio. Está entrenado en 150,000 horas de datos de audio multilingües y puede generar voz de alta calidad en chino, japonés e inglés.

Tendencias de Tráfico Mensual de Fish Speech

Fish Speech logró un 40,9% de aumento en el tráfico alcanzando 694 mil visitas en febrero. El lanzamiento de Fish Speech 1.5 en marzo, que ofrece la clonación de voz más realista para usuarios globales, probablemente contribuyó a este crecimiento al mejorar la participación de los usuarios y atraer nuevos usuarios.

Ver historial de tráfico

Últimas herramientas de IA similares a Fish Speech

MicVoice.Ai
MicVoice.Ai
MicVoice.Ai es una plataforma generadora de voz de IA todo en uno que transforma texto escrito en voz de alta calidad y sonido natural con más de 5000 voces de IA realistas que soportan más de 17 idiomas.
Narrai
Narrai
Narrai es una aplicación móvil impulsada por IA que crea instantáneamente narración de voz y música de fondo para videos cortos al generar automáticamente guiones relevantes y ofrecer múltiples personalidades de narradores.
Vagent
Vagent
Vagent es una interfaz de voz ligera que permite a los usuarios interactuar con agentes de IA personalizados a través de comandos de voz, proporcionando una forma natural e intuitiva de controlar automatizaciones con soporte para más de 60 idiomas.
F5 TTS
F5 TTS
F5-TTS es un sistema de texto a voz de última generación, no autorregresivo, que utiliza técnicas de Flow Matching y Diffusion Transformer para generar habla altamente natural y expresiva con capacidades de clonación de voz de cero disparos.