Skywork-R1V
Skywork R1V는 복잡한 시각-언어 이해 및 논리적 추론을 가능하게 하는 고급 시각적 Chain-of-Thought 기능을 갖춘 최초의 산업 오픈 소스 멀티모달 추론 모델입니다.
https://github.com/SkyworkAI/Skywork-R1V?ref=aipure&utm_source=aipure

제품 정보
업데이트됨:Mar 24, 2025
Skywork-R1V이란?
2025년 3월에 출시된 Skywork R1V는 시각적 및 언어 이해와 정교한 추론 능력을 결합한 Skywork 팀에서 개발한 획기적인 380억 개의 파라미터 멀티모달 AI 모델입니다. 이 모델은 3.2TB의 고품질 다국어 데이터(주로 중국어와 영어) 및 코드 데이터에 대해 사전 훈련되었습니다. 오픈 소스 모델로서 모델 가중치, 훈련 데이터, 평가 방법 및 추론 코드에 대한 모든 액세스를 제공하여 멀티모달 AI 기술의 광범위한 채택과 발전을 가능하게 합니다.
Skywork-R1V의 주요 기능
Skywork-R1V는 고급 시각적 사고 연쇄 능력과 강력한 수학 및 과학 분석 능력을 결합한 선구적인 오픈 소스 멀티모달 추론 모델입니다. 380억 개의 파라미터 모델로서 시각적 추론, 수학 문제 해결, 교차 모달 이해에서 강력한 성능을 보여 훨씬 더 큰 모델의 기능에 접근하거나 능가합니다.
시각적 사고 연쇄 추론: 복잡한 이미지 기반 문제를 관리 가능한 순차적 단계로 분해하여 시각적 입력에 대한 다단계 논리적 추론을 가능하게 합니다.
수학 및 과학 분석: 높은 정밀도와 정확도로 시각적 수학 문제를 해결하고 과학/의료 이미지를 해석하는 전문적인 기능입니다.
교차 모달 통합: 포괄적인 컨텍스트 인식 분석 및 해석을 위해 텍스트와 이미지 이해를 원활하게 결합합니다.
경쟁력 있는 성능: MATH-500(94%), MMMU(69%) 및 MathVista(67.5%)와 같은 벤치마크에서 강력한 결과를 달성하여 훨씬 더 큰 모델과 경쟁합니다.
Skywork-R1V의 사용 사례
교육 평가: 시각적 수학 문제를 분석하고 해결하며 학생들에게 단계별 설명을 제공합니다.
과학 연구: 자세한 분석적 통찰력으로 과학 다이어그램, 차트 및 의료 이미지를 해석합니다.
시각적 문제 해결: 복잡한 시각적 시나리오를 더 나은 이해와 솔루션 개발을 위해 논리적 단계로 세분화합니다.
기술 문서: 기술 다이어그램을 분석하고 프로세스 및 시스템에 대한 자세한 설명을 제공합니다.
장점
MIT 라이선스 하에 오픈 소스이며 상업적으로 사용 가능합니다.
경쟁사에 비해 더 작은 모델 크기(380억)에도 불구하고 강력한 성능을 보입니다.
사고 연쇄 접근 방식을 통한 고급 시각적 추론 기능
단점
배포에 상당한 컴퓨팅 리소스가 필요합니다.
더 큰 폐쇄 소스 모델에 비해 일부 메트릭에서 성능이 낮습니다.
Skywork-R1V 사용 방법
리포지토리 복제: 명령어 실행: git clone https://github.com/SkyworkAI/Skywork-R1V.git && cd skywork-r1v/inference
Conda 환경 생성: 명령어 실행: conda create -n r1-v python=3.10 && conda activate r1-v
종속성 설치: 명령어 실행: bash setup.sh
추론 실행: 명령어 실행: CUDA_VISIBLE_DEVICES=\"0,1\" python inference_with_transformers.py --model_path path --image_paths image1_path --question \"질문 내용\"
모델 요구 사항: 이 모델은 380억 개의 파라미터 모델이므로 추론을 위해 여러 개의 GPU가 필요하므로 충분한 GPU 리소스가 있는지 확인하십시오.
모델 가중치 액세스: 모델 가중치는 다음 Hugging Face에서 액세스할 수 있습니다: https://huggingface.co/Skywork/Skywork-R1V-38B
Skywork-R1V 자주 묻는 질문
Skywork-R1V는 고급 시각적 사고 연쇄 기능을 갖춘 업계 최초의 오픈 소스 멀티모달 추론 모델입니다. 시각적 추론, 수학적 분석 및 교차 모달 이해 작업을 수행할 수 있는 380억 개의 파라미터 모델입니다.