FAQ de Fish Speech

Question 1

Qu'est-ce que Fish Speech ?

Accepted Answer

Fish Speech est un modèle de synthèse vocale (TTS) open-source développé par Fish Audio. Il est entraîné sur 150 000 heures de données audio multilingues et peut générer une parole de haute qualité en chinois, japonais et anglais.

Question 2

Quelles sont les principales caractéristiques de Fish Speech ?

Accepted Answer

Les principales caractéristiques incluent : support multilingue (chinois, japonais, anglais), sortie naturelle de haute qualité, vitesse d'inférence rapide (environ 20 tokens par seconde), options de personnalisation et disponibilité open-source pour que les développeurs puissent expérimenter et modifier.

Question 3

Comment puis-je exécuter Fish Speech sur ma machine locale ?

Accepted Answer

Vous pouvez exécuter Fish Speech localement en suivant ces étapes : 1) Créez un environnement virtuel Python 3.10, 2) Installez PyTorch, 3) Installez Fish Speech en utilisant pip, 4) Téléchargez les points de contrôle du modèle, 5) Exécutez le serveur WebUI ou API en utilisant les commandes fournies.

Question 4

Sous quelle licence Fish Speech est-il publié ?

Accepted Answer

Fish Speech est publié sous la licence BSD-3-Clause, avec des modèles publiés sous la licence CC-BY-NC-SA-4.0.

Question 5

Fish Speech peut-il cloner des voix ?

Accepted Answer

Oui, les versions plus récentes de Fish Speech (par exemple, la version 1.3) offrent la possibilité de cloner des voix avec juste un prompt audio de 10 secondes. Cependant, les utilisateurs doivent être conscients des considérations légales et éthiques potentielles lors du clonage de voix.

Question 6

Comment Fish Speech se compare-t-il aux solutions TTS commerciales ?

Accepted Answer

Fish Speech vise à rivaliser avec des solutions commerciales en termes de qualité de sortie et de fonctionnalités, tout en étant open-source et librement disponible. Il offre une parole naturelle comparable avec une intonation et un accent appropriés.

Question 7

Quelles sont les exigences système pour exécuter Fish Speech ?

Accepted Answer

Fish Speech peut fonctionner sur des GPU de consommation. Par exemple, des utilisateurs ont signalé du succès en l'exécutant sur un GPU 3090Ti avec 24 Go de VRAM. Les exigences spécifiques peuvent varier en fonction de l'utilisation et de la version du modèle.

Fish Speech Howto

Plus d'informations

Comment utiliser Fish Speech