DeepSeek V4 的上下文視窗有多大？

DeepSeek V4 支援超過 100 萬個 token 的上下文，使其能夠一次性處理非常大的輸入，例如整個程式碼庫。

是什麼讓 DeepSeek V4 在長上下文推理方面表現出色？

DeepSeek V4 採用混合注意力機制，結合了壓縮稀疏注意力（CSA）和高度壓縮注意力（HCA）。據報導，在 1M token 的上下文設定下，DeepSeek-V4-Pro 所需的單 token 推理 FLOPs 約為 DeepSeek-V3.2 的 27%，KV 快取約為 10%。

DeepSeek V4 在程式碼方面表現如何？

據描述，DeepSeek V4 能夠處理整個程式碼庫、理解多檔案關係、診斷跨檔案錯誤，並在大型重構期間保持一致性，據報導其 HumanEval 準確度達到 98%。

DeepSeek V4 有哪些變體，它們之間有何不同？

資料來源提到了 DeepSeek-V4-Pro、DeepSeek-V4-Pro-Max（一種最大推理努力模式，被定位為知識/推理/代理任務最強大的開源選項）和 DeepSeek-V4-Flash-Max（較小；在較大的思考預算下可以達到與 Pro 相當的推理能力，但在純知識和最複雜的代理工作流程方面有所落後）。

我可以在本地運行 DeepSeek V4 嗎？

是的。DeepSeek V4 被描述為具有開放權重並可在本地運行；參考資料指向一個包含本地運行說明的「inference」資料夾，包括模型權重轉換和互動式聊天演示。提到的消費級硬體目標是雙 RTX 4090 或單個 RTX 5090。

DeepSeek V4 透過 API 的費用是多少（如資料來源所述）？

一個引用的資料來源指出，DeepSeek V4 在 WaveSpeed 上的費用為每百萬個 token 0.10 美元（據稱約為同類模型的 40%），並指向定價頁面以獲取當前費率。

DeepSeek V4

WebsiteFreemiumAI Chatbot AI Code Assistant

DeepSeek V4 是 DeepSeek 新的開源旗艦 MoE 模型系列（Pro 和 Flash），具有高達 1M-token 的上下文窗口、用於提高效率的混合長上下文注意力，以及在網路、應用程式和 API 上強大的推理/編碼和代理能力。

社交和電子郵件：

訪問網站

宣傳此工具

https://www.deepseek.com/?utm_source=aipure

概覽
分析
官方貼文
文章
替代方案

產品資訊

更新時間：2026年04月24日

DeepSeek V4 每月流量趨勢

DeepSeek 實現了5.466億次訪問，流量增長142.5%。R1和V3模型的發布顯著提升了聊天機器人的能力，使其具有高度競爭力和成本效益。在中國的媒體關注和國家支持也促進了其用戶群的快速擴張。

查看歷史流量

什麼是 DeepSeek V4

DeepSeek V4 是 DeepSeek 推出的下一代大型語言模型系列，以預覽版形式發布，旨在收集真實世界的回饋，並提供兩種專家混合（MoE）變體：DeepSeek-V4-Pro 和 DeepSeek-V4-Flash。該系列被定位為 DeepSeek 用於高級推理、編碼和代理工作流程的旗艦產品，同時秉持 DeepSeek 普及高性能 AI 的廣泛方法，保持開源/開放權重。其一個決定性能力是其非常大的上下文窗口——高達一百萬個 tokens——旨在實現儲存庫級別的理解、長文件處理和在擴展輸入上具有更高一致性的多步驟任務執行。

DeepSeek V4 的主要功能

DeepSeek V4 是一個預覽版旗艦開源專家混合 (MoE) 模型系列，旨在處理高端推理、編碼和代理工作流程，具有超長的 1,000,000 詞元上下文窗口。該系列包括 DeepSeek-V4-Pro (總參數 1.6T，約 49B 激活) 和 DeepSeek-V4-Flash (總參數 284B，約 13B 激活)，並提供「Max」模式，可分配更大的思考預算以實現更強的推理能力。它引入了專注於長上下文效率的混合注意力設計 (例如，CSA + HCA)，以減少 1M 上下文時的推理 FLOPs 和 KV 緩存使用量，並且相較於許多閉源模型，它定位於儲存庫規模的程式碼理解、工具/代理整合以及具成本效益的部署。

1M 詞元長上下文: 支援多達一百萬個詞元的上下文，無需激進的分塊即可實現整個儲存庫/大型文件攝取和長週期代理工作流程。

MoE 架構 (Pro 和 Flash 變體): 兩個 MoE 模型：V4-Pro (1.6T 參數，約 49B 激活) 和 V4-Flash (284B 參數，約 13B 激活)，透過每個詞元僅激活一部分專家來平衡品質與延遲/成本。

最大推理努力模式: Pro-Max 強調更強的知識和推理能力；Flash-Max 在獲得更大的思考預算時可以接近 Pro 級別的推理能力，以速度換取品質。

用於長上下文效率的混合注意力: 結合壓縮稀疏注意力機制 (例如，CSA 和 HCA)，以在非常長的上下文長度下減少計算和 KV 緩存開銷 (據報導，與 V3.2 在 1M 詞元時相比有大幅減少)。

兩階段後訓練 (專家 → 整合): 透過 SFT 和 RL (GRPO) 訓練特定領域的專家，然後透過策略蒸餾整合能力，以統一跨領域的優勢。

代理/工具導向: 定位於代理任務和與常用代理工具的整合，目標工作流程包括多步驟除錯、程式碼庫重構和自動化任務執行。

DeepSeek V4 的使用案例

儲存庫規模的編碼和重構: 一次性攝取大型程式碼庫，執行跨檔案推理、一致的重構、依賴感知編輯以及大規模現代化 (例如，框架升級)。

生產除錯和事件響應: 同時分析冗長的日誌、追蹤、配置和操作手冊；提出修復和緩解步驟，同時保持跨多個服務的全局上下文。

企業知識助理: 透過大型內部語料庫 (政策、規範、工單、維基) 回答問題，減少檢索/分塊步驟，提高長對話的連續性。

開發者工作流程的代理自動化: 驅動使用工具的代理，規劃和執行多步驟任務 (程式碼搜尋、補丁生成、測試運行、PR 草稿)，尤其是在長上下文很重要的情況下。

受監管行業的大型文件分析: 審查和比較冗長的法律/金融/醫療文件 (合約、檔案、指南)，並進行長距離一致性檢查和結構化摘要。

優點

超長的 1M 詞元上下文可實現整個儲存庫和大型文件工作流程，減少分塊。

MoE 設計以比密集模型更低的激活參數計算提供強大的功能，提高成本/性能。

Max 模式為複雜推理和代理任務提供靈活的品質/延遲權衡。

缺點

預覽狀態可能意味著與成熟版本相比，API、穩定性和不完整的生態系統工具會有所變化。

目前預覽版僅限文字 (多模態功能在某些報告中聲明為正在開發中)。

即使有壓縮優化，1M 上下文操作在實踐中仍然可能資源密集 (記憶體/延遲)。

如何使用 DeepSeek V4

1) 選擇您想如何使用 DeepSeek V4（聊天或 API）: 如需快速互動使用，請前往 https://chat.deepseek.com/ 上的網路聊天（或使用 DeepSeek 行動應用程式）。如需整合到您的產品中，請透過 https://platform.deepseek.com/ 使用 API。

2) 在網路聊天中使用 DeepSeek V4（無需程式碼）: 開啟 https://chat.deepseek.com/ 並與最新的旗艦模型（DeepSeek-V4）開始對話。這是測試提示和長上下文工作流程最快的方法。

3) 建立 API 金鑰（用於 API 使用）: 登入 DeepSeek 平台 https://platform.deepseek.com/ 並建立 API 金鑰。請妥善保管，不要將其硬編碼到原始碼中。

4) 安全地儲存您的 API 金鑰: 將金鑰放入環境變數（推薦）或密鑰管理器中。您將其作為 Bearer 令牌在 Authorization 標頭中發送。

5) 呼叫與 OpenAI 相容的 API 端點: DeepSeek V4 的 API 遵循 OpenAI Chat Completions 封裝。將您的基本 URL 設定為 https://api.deepseek.com/v1 並將請求發送到 chat-completions 端點，並帶有 Authorization: Bearer <YOUR_KEY>。

6) 選擇正確的 V4 模型 ID: 在您的請求負載中，將模型欄位設定為 DeepSeek 儀表板/文件中顯示的 V4 模型識別碼（確切的 slug 可能會有所不同；請在運行前驗證）。

7) 選擇適合成本/性能的模型變體: 日常任務和可預測的開銷預設使用 DeepSeek-V4-Flash；對於更困難/複雜的任務，請使用 DeepSeek-V4-Pro。兩者都支援高達 1,000,000 個 tokens 的上下文。

8) 針對您的任務調整生成設定: 對於程式碼/規格，使用較低的溫度（通常約 0.2）。對於創意寫作/構思，使用較高的溫度（通常約 0.5）。當您需要最大程度的確定性時，請保持低溫。

9) 實施安全重試以提高可靠性: 將 API 呼叫包裝在重試助手中，該助手處理帶有指數退避的 429 和 5xx 錯誤。不要自動重試 4xx 錯誤（將它們視為請求/邏輯錯誤）。

10) 需要時使用串流和工具呼叫: 如果您的客戶端已經支援 OpenAI 風格的串流和工具/函數呼叫，那麼只需將基本 URL 替換為 DeepSeek 的即可。使用串流以獲得更快的用戶體驗，並使用工具呼叫進行代理工作流程。

11) (可選) 如果您的堆疊是 Anthropic 形式，請使用 Anthropic 訊息格式: 如果您現有的客戶端使用 Anthropic 的 Messages API 格式，請將其指向 https://api.deepseek.com/anthropic/v1/messages 並發送 Anthropic 形式的負載；它會路由到相同的底層模型。

12) 在迭代期間驗證輸出並保持開銷可見: 審查生成的程式碼和關鍵輸出。為了在不同提供商之間進行快速比較，複製現有的 OpenAI 形式的 API 集合（例如，在 Apidog 中），將基本 URL 替換為 https://api.deepseek.com/v1，替換模型 ID，並運行相同的提示以比較品質和成本。