Petalsはどのように機能しますか？

Petalsは、大規模な言語モデルを複数のユーザーに分割することで機能します。各ユーザーはモデルの小さな部分をロードし、残りの部分を提供する他のユーザーと協力して推論やファインチューニングを実行します。この分散アプローチにより、消費者ハードウェアで大規模なモデルを実行できます。

Petalsを使用する利点は何ですか？

Petalsにはいくつかの利点があります：1）消費者ハードウェアで巨大な言語モデルを実行できること。2）ファインチューニングと推論のためにオフロードするよりも最大10倍速いこと。3）カスタムファインチューニング、サンプリング方法、隠れた状態へのアクセスを可能にするため、典型的なAPIよりも柔軟性が高いこと。4）オープンソースでコミュニティ主導であること。

Petalsは無料で使用できますか？

はい、Petalsは無料でオープンソースです。ただし、ユーザーは分散モデルを実行するためにネットワークにGPUリソースを提供することが奨励されています。

Petalsで実行できるモデルは何ですか？

Petalsは、BLOOM-176B、Llama 3.1（最大405B）、Mixtral（8x22B）、Falcon（40B以上）などの大規模な言語モデルの実行をサポートしています。利用可能なモデルは、Petalsのヘルスダッシュボードで確認できます。

敏感なデータにPetalsを使用するのは安全ですか？

いいえ、敏感なデータに対して公共のPetalsスワームを使用することは推奨されません。公共のスワームは研究および学術用途のために設計されています。敏感なデータの場合、ユーザーは信頼できる関係者の間でプライベートスワームを設定できます。

Collaborative Language Model Runner

WebsiteFreeLarge Language Models (LLMs)Multi-purpose Tools

Petalsは、大規模言語モデルの共同推論と微調整を可能にするオープンソースシステムであり、モデルの部分を複数のユーザーに分散させます。

ウェブサイトを訪問

このツールを宣伝する

https://petals.ml/?utm_source=aipure

概要
分析
代替案

製品情報

更新日:2024年12月16日

Collaborative Language Model Runnerとは

Petalsは、ユーザーが1000億以上のパラメータを持つ大規模言語モデル（LLM）を共同で実行し、微調整できる革新的なフレームワークです。BigScienceプロジェクトの一環として開発されたPetalsは、ユーザーが計算リソースを提供できる分散型ネットワークを作成することで、BLOOM-176Bのような強力なLLMへのアクセスを民主化することを目指しています。このシステムは、通常、個々の研究者がそのような大規模モデルを利用することを妨げるハードウェアの制約を克服し、高度なNLP機能をより広い聴衆に提供します。

Collaborative Language Model Runnerの主な機能

Petalsは、1000億以上のパラメータを持つ大規模言語モデル（LLM）の共同推論とファインチューニングを可能にするオープンソースの分散システムです。ユーザーは、ローカルに小さな部分をロードし、残りの部分を提供する他のユーザーとチームを組むことで、これらのモデルを実行でき、高性能なハードウェア要件なしでLLMにアクセスできるようにします。

分散モデル実行: BitTorrentスタイルのネットワークで複数のマシンに分割して大規模言語モデルを実行します。

柔軟なAPI: カスタムファインチューニング、サンプリング方法、およびモデル内部へのアクセスを可能にするPyTorchベースのAPIを提供します。

効率的な推論: 従来のオフロード技術よりも最大10倍速い推論を可能にします。

共同ファインチューニング: 分散リソースを使用して大規模モデルを共同でファインチューニングすることを可能にします。

Collaborative Language Model Runnerのユースケース

研究と実験: 高価なハードウェアなしで大規模言語モデルを実験することを研究者に可能にします。

インタラクティブAIアプリケーション: レイテンシを減らしたチャットボットのようなインタラクティブAIアプリケーションの構築をサポートします。

民主化されたAIアクセス: 強力な言語モデルをより広範なユーザーや組織が利用できるようにします。

カスタムモデル適応: 特定のドメインやタスクのために大規模モデルを共同でファインチューニングすることを可能にします。

メリット

大規模言語モデルを使用するためのハードウェアコストを削減します

柔軟な研究と実験を可能にします

オフロードと比較して推論速度を改善します

デメリット

コミュニティの参加とリソース共有に依存します

センシティブなデータを処理する際にプライバシーの懸念があるかもしれません

パフォーマンスはネットワーク条件と利用可能なピアに依存します

Collaborative Language Model Runnerの使い方

Petalsをインストールする: pipを使用してPetalsとその依存関係をインストールします: pip install git+https://github.com/bigscience-workshop/petals

必要なモジュールをインポートする: PetalsとTransformersから必要なモジュールをインポートします: from transformers import AutoTokenizer; from petals import AutoDistributedModelForCausalLM

モデルを選択する: Petalsネットワークで利用可能な大規模言語モデルを選択します。例えば、'meta-llama/Meta-Llama-3.1-405B-Instruct'

トークナイザーとモデルを初期化する: トークナイザーとモデルオブジェクトを作成します: tokenizer = AutoTokenizer.from_pretrained(model_name); model = AutoDistributedModelForCausalLM.from_pretrained(model_name)

入力を準備する: 入力テキストをトークン化します: inputs = tokenizer(prompt, return_tensors='pt')

出力を生成する: モデルを使用して入力に基づいてテキストを生成します: outputs = model.generate(**inputs, max_new_tokens=100)

出力をデコードする: 生成されたトークンIDをテキストに戻します: generated_text = tokenizer.decode(outputs[0])

オプション: リソースを提供する: ネットワークを拡張するために、GPUを共有するためにPetalsサーバーを実行できます: python -m petals.cli.run_server model_name

Collaborative Language Model Runnerのよくある質問

Petalsは、ユーザーが大規模な言語モデル（100B以上のパラメータ）を分散方式で共同で実行できるオープンソースシステムです。これはBitTorrentに似ています。ユーザーがモデルの小さな部分をロードし、他のユーザーとチームを組むことで、BLOOM-176Bの推論やファインチューニングを実行できます。