Skywork-R1V
Skywork R1V 是業界首個開源多模態推理模型,具有先進的視覺鏈式思維能力,可實現複雜的視覺語言理解和邏輯推理。
https://github.com/SkyworkAI/Skywork-R1V?ref=aipure&utm_source=aipure

產品資訊
更新時間:2025年03月24日
什麼是 Skywork-R1V
Skywork R1V 於 2025 年 3 月推出,是由 Skywork 團隊開發的一款突破性的 38B 參數多模態 AI 模型,它結合了視覺和語言理解以及複雜的推理能力。該模型在 3.2TB 的高質量多語言數據(主要是中文和英文)和代碼數據上進行了預訓練。作為一個開源模型,它提供了對模型權重、訓練數據、評估方法和推理代碼的完全訪問權限,以實現多模態 AI 技術的廣泛採用和發展。
Skywork-R1V 的主要功能
Skywork-R1V 是一個開創性的開源多模態推理模型,它結合了先進的視覺鏈式思維能力與強大的數學和科學分析能力。作為一個 380 億參數的模型,它在視覺推理、數學問題解決和跨模態理解方面表現出強勁的性能,接近或匹配了更大模型的性能。
視覺鏈式思維推理: 通過將基於圖像的複雜問題分解為可管理的順序步驟,實現對視覺輸入的多步驟邏輯推理
數學與科學分析: 具有解決視覺數學問題和以高精度和準確性解釋科學/醫學圖像的專業能力
跨模態整合: 無縫結合文本和圖像理解,以實現全面的上下文感知分析和解釋
競爭性性能: 在 MATH-500 (94%)、MMMU (69%) 和 MathVista (67.5%) 等基準測試中取得了優異的成績,與更大的模型競爭
Skywork-R1V 的使用案例
教育評估: 分析和解決視覺數學問題,為學生提供逐步的解釋
科學研究: 解釋科學圖表、圖表和醫學圖像,並提供詳細的分析見解
視覺問題解決: 將複雜的視覺場景分解為邏輯步驟,以便更好地理解和開發解決方案
技術文檔: 分析技術圖表,並提供流程和系統的詳細解釋
優點
在 MIT 許可證下開源且可商業使用
儘管模型尺寸較小 (38B),但與競爭對手相比,性能強勁
具有鏈式思維方法的高級視覺推理能力
缺點
部署需要大量的計算資源
與更大的閉源模型相比,在某些指標上的性能較低
如何使用 Skywork-R1V
克隆儲存庫: 執行命令:git clone https://github.com/SkyworkAI/Skywork-R1V.git && cd skywork-r1v/inference
創建 Conda 環境: 執行命令:conda create -n r1-v python=3.10 && conda activate r1-v
安裝依賴: 執行命令:bash setup.sh
執行推理: 執行命令:CUDA_VISIBLE_DEVICES=\"0,1\" python inference_with_transformers.py --model_path path --image_paths image1_path --question \"your question\"
模型要求: 確保您有足夠的 GPU 資源,因為這是一個 38B 參數模型,需要多個 GPU 進行推理
訪問模型權重: 可以從 Hugging Face 訪問模型權重,網址為:https://huggingface.co/Skywork/Skywork-R1V-38B
Skywork-R1V 常見問題
Skywork-R1V是業界首個開源多模態推理模型,具有先進的視覺鏈式思考能力。它是一個380億參數的模型,可以執行視覺推理、數學分析和跨模態理解任務。