Stable Audio Open 使い方
Stable Audio Openは、簡単なテキストプロンプトから最大47秒の高品質オーディオサンプルとサウンドエフェクトを生成するオープンソースのテキストからオーディオへのAIモデルです。
もっと見るStable Audio Openの使い方
モデルをダウンロード: Hugging Faceからモデルリポジトリをクローンします: git clone https://huggingface.co/stabilityai/stable-audio-open-1.0
依存関係をインストール: 必要なライブラリをpipでインストールします: pip install torch torchaudio stable_audio_tools einops
ライブラリをインポート: 必要なPythonライブラリをインポートします: torch, torchaudio, stable_audio_tools, einops
モデルをロード: 事前学習済みモデルをロードします: model, model_config = get_pretrained_model('stabilityai/stable-audio-open-1.0')
オーディオを生成: generate_diffusion_cond関数を使用して、テキストプロンプトに基づいてオーディオを生成します
出力を処理: 出力オーディオバッチを再配置し、正規化/希望の形式に変換します
オーディオを保存: 生成されたオーディオをファイルに保存します: torchaudio.save()
Stable Audio Openのよくある質問
Stable Audio Openは、Stability AIによって開発されたオープンソースモデルで、テキストプロンプトを使用して最大47秒のオーディオサンプル、サウンドエフェクト、および制作要素を生成します。
もっと見る