如何使用 Collaborative Language Model Runner
安装 Petals: 使用 pip 安装 Petals 及其依赖项:pip install git+https://github.com/bigscience-workshop/petals
导入所需模块: 从 Petals 和 Transformers 导入必要的模块:from transformers import AutoTokenizer; from petals import AutoDistributedModelForCausalLM
选择模型: 选择 Petals 网络上可用的大型语言模型,例如 'meta-llama/Meta-Llama-3.1-405B-Instruct'
初始化分词器和模型: 创建分词器和模型对象:tokenizer = AutoTokenizer.from_pretrained(model_name); model = AutoDistributedModelForCausalLM.from_pretrained(model_name)
准备输入: 对输入文本进行分词:inputs = tokenizer(prompt, return_tensors='pt')
生成输出: 使用模型基于输入生成文本:outputs = model.generate(**inputs, max_new_tokens=100)
解码输出: 将生成的令牌 ID 解码回文本:generated_text = tokenizer.decode(outputs[0])
可选:贡献资源: 为了帮助扩展网络,您可以运行一个 Petals 服务器来共享您的 GPU:python -m petals.cli.run_server model_name
Collaborative Language Model Runner 常见问题
Petals 是一个开源系统,允许用户以分布式方式协作运行大型语言模型(100B+参数),类似于 BitTorrent。它使得用户可以通过加载模型的小部分并与他人合作,来运行 BLOOM-176B 等模型的推理和微调。
查看更多