
MiMo
MiMo 是小米開發的 7B 參數語言模型系列,專門研究數學和程式碼推理能力,透過創新的預訓練和後訓練策略實現與較大型模型相當的效能。
https://github.com/XiaomiMiMo/MiMo?ref=aipure&utm_source=aipure

產品資訊
更新時間:2025年05月16日
什麼是 MiMo
MiMo 是小米 LLM-Core 團隊開發的一系列語言模型,專注於增強數學和程式碼方面的推理能力。該系列包括 MiMo-7B-Base(基礎模型)、MiMo-7B-RL(強化學習模型)、MiMo-7B-SFT(監督微調模型)和 MiMo-7B-RL-Zero。儘管 MiMo 的大小相對較小,只有 7B 參數,但它表現出了卓越的推理能力,可以匹配甚至超過更大的 32B 模型的效能,甚至可以與 OpenAI 的 o1-mini 模型競爭。
MiMo 的主要功能
MiMo是由小米開發的70億參數語言模型系列,專為增強數學和程式碼方面的推理能力而設計。它包括通過預訓練和後訓練策略相結合訓練的不同版本(Base、SFT、RL-Zero和RL),具有多Token預測和專門的數據處理技術。該模型表現出卓越的性能,可與更大的320億模型和OpenAI的o1-mini相媲美,尤其是在數學和程式碼任務中。
多Token預測: 增強的訓練目標,可提高模型性能並加快推理速度
優化的預訓練流程: 使用多維數據過濾和合成推理數據生成來增加推理模式密度
先進的RL訓練系統: 具有無縫Rollout引擎,通過連續Rollout和異步獎勵計算,提供2.29倍的更快訓練和1.96倍的更快驗證
測試難度驅動的程式碼獎勵: 為具有不同難度級別的測試案例實施精細的評分系統,以提供更有效的策略優化
MiMo 的使用案例
數學問題解決: 擅長解決複雜的數學問題,包括AIME級別的競賽和一般數學評估
程式碼開發與測試: 處理各種程式碼任務,具有很高的準確性,尤其是在LiveCodeBench性能中得到證明
一般推理任務: 在GPQA Diamond和SuperGPQA等一般推理基準測試中表現良好,使其適用於邏輯分析任務
優點
儘管尺寸較小(70億參數),但性能與較大型號相匹配
在數學和程式碼任務中均表現出卓越的性能
通過多Token預測實現高效推理
具有多種模型變體的開源可用性
缺點
需要特定的vLLM fork才能獲得最佳性能
與專門的推理任務相比,在一般語言任務上的性能較低
與其他推理引擎的驗證有限
如何使用 MiMo
下載模型: 從 Hugging Face (https://huggingface.co/XiaomiMiMo) 下載 MiMo 模型之一。可用的模型有:MiMo-7B-Base、MiMo-7B-RL-Zero、MiMo-7B-SFT 和 MiMo-7B-RL
設定環境: 安裝所需的依賴項。建議使用小米的 vLLM 分支,該分支基於 vLLM 0.7.3 (https://github.com/XiaomiMiMo/vllm/tree/feat_mimo_mtp)
選擇推理方法: 您可以使用 vLLM(推薦)或 HuggingFace 進行推理。vLLM 支援 MiMo 的多 Token 預測 (MTP) 功能
對於 vLLM 推理: 匯入所需的函式庫 (vllm),使用模型路徑和參數(建議 temperature=0.6)初始化 LLM,使用空系統提示建立對話格式,並使用 llm.chat() 產生回應
對於 HuggingFace 推理: 從 transformers 匯入 AutoModel 和 AutoTokenizer,使用 trust_remote_code=True 載入模型和 tokenizer,對輸入進行 Token 化,並使用 model.generate() 建立輸出
設定參數: 使用 temperature=0.6 可獲得最佳結果。建議使用空系統提示以獲得最佳效能
執行推理: 輸入您的提示/查詢,模型將產生回應。該模型在包括數學和程式碼在內的推理任務中特別強大
處理輸出: 處理模型輸出產生的文字。對於 vLLM,透過 output.outputs[0].text 存取文字。對於 HuggingFace,在輸出上使用 tokenizer.decode()
MiMo 常見問題
MiMo是由小米開發的一系列70億參數語言模型,專為推理任務設計和訓練。該系列包括MiMo-7B-Base、MiMo-7B-RL-Zero、MiMo-7B-SFT和MiMo-7B-RL模型。