Dream 7B 是如何訓練的？

Dream 7B 在包含 Dolma v1.7、OpenCoder 和 DCLM-Baseline 等來源的 5800 億個 token 上進行了預訓練。訓練在 96 個 NVIDIA H800 GPU 上進行了 256 小時。它使用來自 Qwen2.5 7B 的權重進行初始化，並使用上下文自適應 token 級別的噪聲重新調度機制。

Dream 7B 與傳統的自迴歸模型有何不同？

與按順序生成 token 的自迴歸模型不同，Dream 7B 使用離散擴散建模，允許雙向上下文建模、靈活的可控生成和潛在的採樣加速。它可以按任意順序生成輸出，並提供可調整的質量-速度權衡。

在哪裡可以訪問 Dream 7B？

Dream 7B 有兩個版本：Hugging Face 上的基礎模型 (Dream-org/Dream-v0-Base-7B) 和指令調整模型 (Dream-org/Dream-v0-Instruct-7B)。代碼庫可在 GitHub 上的 HKUNLP/Dream 上找到。

Dream 7B 的主要優勢是什麼？

Dream 7B 展示了強大的規劃能力、推理靈活性，並且在性能上與類似規模的自迴歸模型相媲美或超越。它在需要多重約束或特定目標的任務中表現出特別強勁的結果，例如倒計時和數獨謎題。

Dream 7B 是如何進行微調的？

Dream 7B 使用來自 Tulu 3 和 SmolLM2 數據集的 180 萬個指令對進行了監督微調，訓練了三個 epoch 以與用戶指令對齊。這個初步的後訓練步驟幫助它在性能上與自迴歸模型相匹配。

Dream 7B

WebsiteFreeLarge Language Models (LLMs)Research Tools

Dream 7B 是一個突破性的 70 億參數擴散語言模型，它在提供卓越的規劃能力和靈活的推論能力的同時，匹配或超過了頂級自迴歸模型。

訪問網站

宣傳此工具

https://hkunlp.github.io/blog/2025/dream?ref=aipure&utm_source=aipure

概覽
分析
影片
替代方案

產品資訊

更新時間：2025年07月15日

Dream 7B 每月流量趨勢

Dream 7B 在上個月收到了 7.3k 次訪問，呈現出 -54.1% 的顯著下降。根據我們的分析，這個趨勢與人工智能工具領域的典型市場動態相符。

查看歷史流量

什麼是 Dream 7B

Dream 7B 由香港大學和華為諾亞方舟實驗室聯合開發，代表了迄今為止最強大的開放擴散大型語言模型。它於 2025 年發布，並在來自包括 Dolma v1.7、OpenCoder 和 DCLM-Baseline 在內的多樣化數據集的 5800 億個 tokens 上進行了訓練。該模型有兩個版本：一個基礎模型 (Dream-v0-Base-7B) 和一個經過監督微調的指令模型 (Dream-v0-Instruct-7B)，兩者都向研究社群公開提供。

Dream 7B 的主要功能

Dream 7B是由香港大學自然語言處理實驗室和華為諾亞方舟實驗室開發的突破性開源擴散大型語言模型，具有70億個參數。它通過使用離散擴散建模，實現並行令牌生成和雙向上下文理解，代表了與傳統自迴歸模型的重大偏離。該模型在一般任務、數學和編碼方面表現出與領先的自迴歸模型相當的競爭力，同時在規劃能力和靈活的推理能力方面提供了獨特的優勢。

雙向上下文建模: 能夠在文本生成過程中更豐富地整合來自兩個方向的信息，從而增強生成內容的全局一致性

靈活的生成控制: 通過其迭代改進過程，支持各種生成模式，包括完成、填充和任意順序生成

質量-速度權衡: 提供可調整的推理步驟，允許用戶根據其需求在生成速度和輸出質量之間取得平衡

上下文自適應令牌級別噪聲重新調度: 根據上下文信息動態調整各個令牌的噪聲水平，從而提高生成準確性

Dream 7B 的使用案例

複雜問題解決: 對於需要多重約束或特定目標的任務特別有效，例如數獨解題和數學推理

代碼生成: 能夠生成和完成代碼片段，其強大的性能可與專門的編碼模型相媲美

文本完成和編輯: 靈活的文本生成能力使其適用於各種內容創建和編輯任務，能夠填補空白或完成部分內容

優點

與類似大小的自迴歸模型相比，具有卓越的規劃能力

具有可控生成順序的靈活推理選項

在一般、數學和編碼任務中具有競爭力

缺點

訓練期間需要仔細的學習率調整

訓練期間的計算強度大（需要96個NVIDIA H800 GPU）

仍然需要在後訓練技術中進行更多探索

如何使用 Dream 7B

安裝所需依賴項: 從 Hugging Face 安裝 PyTorch 和 Transformers 庫

導入必要的庫: 導入 torch 和 transformers 庫： import torch from transformers import AutoModel, AutoTokenizer

載入模型: 載入基礎模型 'Dream-org/Dream-v0-Base-7B' 或指令調整模型 'Dream-org/Dream-v0-Instruct-7B'： model_path = 'Dream-org/Dream-v0-Instruct-7B' model = AutoModel.from_pretrained(model_path, torch_dtype=torch.bfloat16, trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

將模型移動到 GPU 並設定為 eval 模式: model = model.to('cuda').eval()

準備輸入: 將您的輸入格式化為訊息列表： messages = [{'role': 'user', 'content': '您的提示詞在這裡'}]

Tokenize 輸入: inputs = tokenizer.apply_chat_template(messages, return_tensors='pt', return_dict=True, add_generation_prompt=True)

產生輸出: 該模型支援靈活的生成模式，包括完成、填充和受控生成順序。您可以調整擴散步驟以在品質和速度之間進行權衡。

可選：調整推論參數: 您可以通過調整擴散步驟的數量等參數來自定義生成 - 步驟越少，結果越快但越粗糙，步驟越多，輸出品質越高