Collaborative Language Model Runner Como Fazer
Petals é um sistema de código aberto que permite a inferência colaborativa e o ajuste fino de grandes modelos de linguagem, distribuindo partes do modelo entre vários usuários.
Ver MaisComo Usar o Collaborative Language Model Runner
Instalar Petals: Instale o Petals e suas dependências usando pip: pip install git+https://github.com/bigscience-workshop/petals
Importar módulos necessários: Importe os módulos necessários do Petals e Transformers: from transformers import AutoTokenizer; from petals import AutoDistributedModelForCausalLM
Escolher um modelo: Selecione um grande modelo de linguagem disponível na rede Petals, como 'meta-llama/Meta-Llama-3.1-405B-Instruct'
Inicializar tokenizer e modelo: Crie os objetos tokenizer e modelo: tokenizer = AutoTokenizer.from_pretrained(model_name); model = AutoDistributedModelForCausalLM.from_pretrained(model_name)
Preparar entrada: Tokenize seu texto de entrada: inputs = tokenizer(prompt, return_tensors='pt')
Gerar saída: Use o modelo para gerar texto com base na entrada: outputs = model.generate(**inputs, max_new_tokens=100)
Decodificar saída: Decodifique os IDs de token gerados de volta em texto: generated_text = tokenizer.decode(outputs[0])
Opcional: Contribuir com recursos: Para ajudar a expandir a rede, você pode executar um servidor Petals para compartilhar sua GPU: python -m petals.cli.run_server model_name
Perguntas Frequentes do Collaborative Language Model Runner
Petals é um sistema de código aberto que permite aos usuários executar grandes modelos de linguagem (100B+ parâmetros) de forma colaborativa e distribuída, semelhante ao BitTorrent. Ele possibilita a execução de modelos como BLOOM-176B para inferência e ajuste fino, fazendo com que os usuários carreguem pequenas partes do modelo e se unam a outros.
Ver Mais