DeepSeek-R1
DeepSeek-R1 是一個先進的開源 AI 推理模型,在數學、編碼和推理任務中表現與 OpenAI 的 o1 相當,採用了創新的強化學習技術,並有多種精簡版本以提高可訪問性。
https://github.com/deepseek-ai/DeepSeek-R1?ref=aipure&utm_source=aipure
產品資訊
更新時間:2025年01月22日
什麼是 DeepSeek-R1
DeepSeek-R1 是由 DeepSeek AI 開發的第一代推理模型,主要分為兩個版本:DeepSeek-R1-Zero 和 DeepSeek-R1。該模型基於混合專家(MoE)架構,總參數量為 671B,激活參數量為 37B,代表了 AI 推理能力的重大突破。該模型通過鏈式思維過程處理複雜推理任務,可處理長達 128K token 的上下文。它既可通過 DeepSeek 的聊天平台使用,也可作為開源模型使用,有多種精簡版本,參數量從 1.5B 到 70B 不等,基於 Llama 和 Qwen 架構。
DeepSeek-R1 的主要功能
DeepSeek-R1 是一個先進的開源 AI 推理模型,其在數學、編碼和推理任務中的表現可與 OpenAI 的 o1 模型相媲美。它通過大規模的強化學習進行訓練,並具有一種獨特的架構,能夠實現逐步推理、自我驗證和反思功能。該模型已根據 Llama 和 Qwen 精簡為更小的版本,使其更易於使用,同時保持強大的性能。
先進的推理能力: 採用鏈式思考推理,具有自我驗證和反思模式,能夠透明地進行逐步問題解決
大規模強化學習訓練: 首個公開研究驗證,推理能力可以通過純粹的強化學習而無需監督微調來發展
靈活的模型選項: 通過精簡提供多種大小(1.5B 到 70B 參數),在保持強大性能的同時滿足不同的計算需求
擴展的上下文長度: 支持高達 128K token 的上下文長度,能夠處理更長的輸入並生成更詳細的響應
DeepSeek-R1 的使用案例
高級數學問題解決: 擅長解決複雜的數學問題,包括 AIME 和 MATH-500 基準測試,並能進行逐步推理
軟件開發和編碼: 能夠執行高級編碼任務、競賽編程問題和軟件工程挑戰,具有很高的準確性
教育輔助: 通過提供詳細的解釋和各個學科的逐步問題解決方法,幫助學生和教育工作者
多語言推理任務: 能夠處理英語和中文的複雜推理任務,使其在國際應用中具有重要價值
優點
開源並可在 MIT 許可下商業使用
性能可與 OpenAI 的 o1 等專有模型相媲美
提供多種大小以滿足不同的計算需求
缺點
大型模型需要大量的計算資源
溫度設置需要仔細調整以防止重複
不支持系統提示 - 所有指令必須在用戶提示中
如何使用 DeepSeek-R1
選擇訪問方式: 您有三種方式訪問 DeepSeek-R1:Web 界面、API 或本地安裝
Web 界面訪問: 訪問 chat.deepseek.com,登錄並啟用 'DeepThink' 按鈕以與 DeepSeek-R1 互動。注意:高級模式下每天限 50 條消息
API 訪問: 1. 在 platform.deepseek.com 註冊以獲取 API 密鑰 2. 使用與 OpenAI 兼容的 API,指定 model='deepseek-reasoner' 3. 設置 base_url 為 https://api.deepseek.com/v1
本地安裝(精簡模型): 安裝 vLLM 或 SGLang 以在本地運行較小的精簡版本。對於 vLLM,使用:'vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager'
配置使用設置: 將溫度設置在 0.5-0.7 之間(推薦 0.6),避免使用系統提示,將指令包含在用戶提示中,對於數學問題添加 '\\boxed{}' 指令
選擇模型版本: 根據您的計算資源選擇 DeepSeek-R1-Zero(純 RL 模型)、DeepSeek-R1(完整模型)或精簡版本(基於 Qwen/Llama)
格式化提示: 在用戶提示中包含所有指令,不要使用系統提示。對於數學問題,要求最終答案在 \\boxed{} 中
生成多個響應: 為了獲得最佳效果,生成多個響應並在評估模型性能時取平均值
DeepSeek-R1 常見問題
DeepSeek-R1 是由 DeepSeek-AI 開發的第一代推理模型,其在數學、編碼和推理任務上的表現可與 OpenAI-o1 相媲美。它使用大規模強化學習進行訓練,並包括兩個版本:DeepSeek-R1-Zero 和 DeepSeek-R1。