Dream 7B是如何训练的？

Dream 7B在包含Dolma v1.7、OpenCoder和DCLM-Baseline等来源的5800亿个tokens上进行了预训练。训练在96个NVIDIA H800 GPU上进行了256小时。它使用Qwen2.5 7B的权重进行初始化，并使用上下文自适应的token级噪声重新调度机制。

是什么使Dream 7B与传统的自回归模型不同？

与按顺序生成tokens的自回归模型不同，Dream 7B使用离散扩散建模，这允许双向上下文建模、灵活的可控生成和潜在的采样加速。它可以按任意顺序生成输出，并提供可调整的质量-速度权衡。

在哪里可以访问Dream 7B？

Dream 7B有两个版本：基础模型（Dream-org/Dream-v0-Base-7B）和指令调整模型（Dream-org/Dream-v0-Instruct-7B），可在Hugging Face上找到。代码库可在GitHub上的HKUNLP/Dream上找到。

Dream 7B的主要优势是什么？

Dream 7B展示了强大的规划能力、推理灵活性，并在性能上与类似规模的自回归模型相匹配或超过它们。它在需要多个约束或特定目标（如倒计时和数独谜题）的任务中表现出特别强大的结果。

Dream 7B是如何进行微调的？

Dream 7B使用来自Tulu 3和SmolLM2数据集的180万个指令对进行了监督微调，训练了三个epoch以与用户指令对齐。这个初步的后训练步骤帮助它在性能上与自回归模型相匹配。

Dream 7B

WebsiteFreeLarge Language Models (LLMs)Research Tools

Dream 7B 是一款突破性的 70 亿参数扩散语言模型，它在提供卓越的规划能力和灵活的推理能力的同时，匹配或超过了顶级的自回归模型。

访问网站

推广此工具

https://hkunlp.github.io/blog/2025/dream?ref=aipure&utm_source=aipure

概述
分析
视频
替代方案

产品信息

更新于：2025年07月15日

Dream 7B 月度流量趋势

Dream 7B 上个月收到了 7.3k 次访问，显示出 -54.1% 的显著下降。根据我们的分析，这一趋势与人工智能工具领域的典型市场动态相符。

查看历史流量

什么是 Dream 7B

Dream 7B 由香港大学和华为诺亚方舟实验室联合开发，代表了迄今为止最强大的开放扩散大型语言模型。它于 2025 年发布，在来自包括 Dolma v1.7、OpenCoder 和 DCLM-Baseline 在内的各种数据集的 5800 亿个 tokens 上进行训练。该模型有两个版本：一个基础模型 (Dream-v0-Base-7B) 和一个监督微调指令模型 (Dream-v0-Instruct-7B)，两者都向研究社区开放。

Dream 7B 的主要功能

Dream 7B是由香港大学NLP和华为诺亚方舟实验室开发的突破性开源扩散大型语言模型，拥有70亿参数。它通过使用离散扩散建模，实现了并行令牌生成和双向上下文理解，代表了与传统自回归模型的重大偏离。该模型在一般任务、数学和编码方面表现出与领先的自回归模型相当的竞争性能，同时在规划能力和灵活的推理能力方面提供了独特的优势。

双向上下文建模: 能够在文本生成过程中更丰富地整合来自两个方向的信息，从而增强生成内容的全局连贯性

灵活的生成控制: 通过其迭代细化过程，支持各种生成模式，包括补全、填充和任意顺序生成

质量-速度权衡: 提供可调整的推理步骤，允许用户根据自己的需求在生成速度和输出质量之间取得平衡

上下文自适应的令牌级噪声重新调度: 根据上下文信息动态调整单个令牌的噪声水平，从而提高生成准确性

Dream 7B 的使用场景

复杂问题解决: 对于需要多个约束或特定目标的任务特别有效，例如数独求解和数学推理

代码生成: 能够生成和完成代码片段，其强大性能可与专门的编码模型相媲美

文本补全和编辑: 灵活的文本生成能力使其适用于各种内容创建和编辑任务，能够填补空白或完成部分内容

优点

与类似大小的自回归模型相比，具有卓越的规划能力

具有可控生成顺序的灵活推理选项

在一般、数学和编码任务中具有竞争优势

缺点

训练期间需要仔细调整学习率

训练期间的计算强度（需要96个NVIDIA H800 GPU）

仍然需要在后训练技术中进行更多探索

如何使用 Dream 7B

安装所需的依赖项: 从 Hugging Face 安装 PyTorch 和 Transformers 库

导入必要的库: 导入 torch 和 transformers 库：\nimport torch\nfrom transformers import AutoModel, AutoTokenizer

加载模型: 加载基础模型 'Dream-org/Dream-v0-Base-7B' 或指令调整模型 'Dream-org/Dream-v0-Instruct-7B'：\nmodel_path = 'Dream-org/Dream-v0-Instruct-7B'\nmodel = AutoModel.from_pretrained(model_path, torch_dtype=torch.bfloat16, trust_remote_code=True)\ntokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

将模型移动到 GPU 并设置为 eval 模式: model = model.to('cuda').eval()

准备输入: 将您的输入格式化为消息列表：\nmessages = [{'role': 'user', 'content': '您的提示在这里'}]

标记化输入: inputs = tokenizer.apply_chat_template(messages, return_tensors='pt', return_dict=True, add_generation_prompt=True)

生成输出: 该模型支持灵活的生成模式，包括完成、填充和受控生成顺序。您可以调整扩散步骤以在质量和速度之间进行权衡。

可选：调整推理参数: 您可以通过调整参数（如扩散步骤数）来自定义生成 - 较少的步骤可获得更快但更粗略的结果，更多的步骤可获得更高质量的输出