Dream 7B는 어떻게 훈련되었습니까?

Dream 7B는 Dolma v1.7, OpenCoder 및 DCLM-Baseline을 포함한 소스에서 5,800억 개의 토큰에 대해 사전 훈련되었습니다. 훈련은 96개의 NVIDIA H800 GPU에서 256시간 동안 수행되었습니다. Qwen2.5 7B의 가중치로 초기화되었으며 컨텍스트 적응형 토큰 수준 노이즈 재스케줄링 메커니즘을 사용합니다.

Dream 7B가 기존 자동 회귀 모델과 다른 점은 무엇입니까?

토큰을 순차적으로 생성하는 자동 회귀 모델과 달리 Dream 7B는 양방향 컨텍스트 모델링, 유연한 제어 가능한 생성 및 잠재적인 샘플링 가속을 허용하는 이산 확산 모델링을 사용합니다. 임의의 순서로 출력을 생성할 수 있으며 조정 가능한 품질-속도 절충안을 제공합니다.

Dream 7B는 어디에서 액세스할 수 있습니까?

Dream 7B는 Hugging Face에서 기본 모델(Dream-org/Dream-v0-Base-7B)과 명령어 튜닝 모델(Dream-org/Dream-v0-Instruct-7B)의 두 가지 버전으로 제공됩니다. 코드베이스는 GitHub의 HKUNLP/Dream에서 사용할 수 있습니다.

Dream 7B의 주요 강점은 무엇입니까?

Dream 7B는 강력한 계획 능력, 추론 유연성을 보여주며 성능면에서 유사한 크기의 자동 회귀 모델과 일치하거나 능가합니다. Countdown 및 Sudoku 퍼즐과 같이 여러 제약 조건 또는 특정 목표가 필요한 작업에서 특히 강력한 결과를 보여줍니다.

Dream 7B는 어떻게 미세 조정되었습니까?

Dream 7B는 Tulu 3 및 SmolLM2 데이터 세트에서 가져온 180만 개의 명령어 쌍을 사용하여 지도 학습 미세 조정을 거쳤으며 사용자 명령어에 맞추기 위해 3번의 에포크 동안 훈련했습니다. 이 예비 사후 훈련 단계를 통해 자동 회귀 모델과 성능을 일치시킬 수 있었습니다.

Dream 7B

WebsiteFreeLarge Language Models (LLMs)Research Tools

Dream 7B는 뛰어난 계획 능력과 유연한 추론 기능을 제공하면서 최상위 자동 회귀 모델과 일치하거나 능가하는 획기적인 70억 매개변수 확산 언어 모델입니다.

웹사이트 방문

이 도구 광고하기

https://hkunlp.github.io/blog/2025/dream?ref=aipure&utm_source=aipure

개요
분석
동영상
대안

제품 정보

업데이트됨:Jul 16, 2025

Dream 7B 월간 트래픽 동향

Dream 7B은(는) 지난달 7.3k회 방문을 기록했으며, 이는 -54.1%의 큰 폭의 감소을(를) 보여줍니다. 저희 분석에 따르면 이러한 추세는 AI 도구 분야의 일반적인 시장 동향과 일치합니다.

과거 트래픽 보기

Dream 7B이란?

홍콩 대학교와 화웨이 노아의 방주 연구소에서 공동으로 개발한 Dream 7B는 현재까지 가장 강력한 오픈 확산 대규모 언어 모델입니다. 2025년에 출시되었으며 Dolma v1.7, OpenCoder 및 DCLM-Baseline을 포함한 다양한 데이터 세트에서 5800억 개의 토큰으로 학습되었습니다. 이 모델은 기본 모델(Dream-v0-Base-7B)과 지도 학습된 미세 조정된 명령어 모델(Dream-v0-Instruct-7B)의 두 가지 버전으로 제공되며, 둘 다 연구 커뮤니티에서 공개적으로 사용할 수 있습니다.

Dream 7B의 주요 기능

Dream 7B는 HKU NLP와 Huawei Noah's Ark Lab에서 개발한 70억 개의 파라미터를 가진 획기적인 오픈 소스 확산 대규모 언어 모델입니다. 이 모델은 이산 확산 모델링을 사용하여 병렬 토큰 생성 및 양방향 컨텍스트 이해를 가능하게 함으로써 기존의 자기 회귀 모델에서 크게 벗어났습니다. 이 모델은 일반 작업, 수학 및 코딩에서 선도적인 자기 회귀 모델과 비슷한 경쟁력 있는 성능을 보여주면서 계획 능력과 유연한 추론 기능에서 고유한 장점을 제공합니다.

양방향 컨텍스트 모델링: 텍스트 생성 중에 양방향에서 정보를 더욱 풍부하게 통합하여 생성된 콘텐츠 전반에 걸쳐 전반적인 일관성을 향상시킵니다.

유연한 생성 제어: 반복적인 개선 프로세스를 통해 완성, 채우기 및 임의 순서 생성을 포함한 다양한 생성 모드를 지원합니다.

품질-속도 절충: 사용자가 필요에 따라 생성 속도와 출력 품질 간의 균형을 맞출 수 있도록 조정 가능한 추론 단계를 제공합니다.

컨텍스트 적응형 토큰 수준 노이즈 재스케줄링: 컨텍스트 정보를 기반으로 개별 토큰에 대한 노이즈 수준을 동적으로 조정하여 생성 정확도를 향상시킵니다.

Dream 7B의 사용 사례

복잡한 문제 해결: 특히 스도쿠 풀이 및 수학적 추론과 같이 여러 제약 조건 또는 특정 목표가 필요한 작업에 효과적입니다.

코드 생성: 특화된 코딩 모델과 비슷한 강력한 성능으로 코드 스니펫을 생성하고 완성할 수 있습니다.

텍스트 완성 및 편집: 유연한 텍스트 생성 기능으로 다양한 콘텐츠 제작 및 편집 작업에 적합하며, 간격을 채우거나 부분 콘텐츠를 완성하는 기능을 제공합니다.

장점

유사한 크기의 자기 회귀 모델에 비해 뛰어난 계획 기능

제어 가능한 생성 순서를 가진 유연한 추론 옵션

일반, 수학 및 코딩 작업 전반에 걸쳐 경쟁력 있는 성능

단점

학습 중에 학습률을 신중하게 조정해야 합니다.

학습 중 계산 강도 (96 NVIDIA H800 GPU 필요)

사후 학습 기술에 대한 더 많은 탐구가 여전히 필요합니다.

Dream 7B 사용 방법

필수 종속성 설치: Hugging Face에서 PyTorch 및 Transformers 라이브러리 설치

필요한 라이브러리 가져오기: torch 및 transformers 라이브러리 가져오기: import torch from transformers import AutoModel, AutoTokenizer

모델 로드: 기본 모델 'Dream-org/Dream-v0-Base-7B' 또는 명령어 조정 모델 'Dream-org/Dream-v0-Instruct-7B' 중 하나를 로드합니다.: model_path = 'Dream-org/Dream-v0-Instruct-7B' model = AutoModel.from_pretrained(model_path, torch_dtype=torch.bfloat16, trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

모델을 GPU로 이동하고 평가 모드로 설정: model = model.to('cuda').eval()

입력 준비: 입력을 메시지 목록으로 포맷합니다.: messages = [{'role': 'user', 'content': '여기에 프롬프트 입력'}]

입력 토큰화: inputs = tokenizer.apply_chat_template(messages, return_tensors='pt', return_dict=True, add_generation_prompt=True)

출력 생성: 이 모델은 완료, 채우기 및 제어된 생성 순서를 포함한 유연한 생성 모드를 지원합니다. 품질과 속도 사이의 균형을 맞추기 위해 확산 단계를 조정할 수 있습니다.

선택 사항: 추론 매개변수 조정: 확산 단계 수와 같은 매개변수를 조정하여 생성을 사용자 지정할 수 있습니다. 단계가 적을수록 더 빠르지만 결과가 더 거칠고, 단계가 많을수록 더 높은 품질의 출력을 얻을 수 있습니다.

Dream 7B 자주 묻는 질문

Dream 7B는 홍콩대학교와 화웨이 Noah's Ark 연구소가 공동으로 개발한 현재까지 가장 강력한 오픈 확산 대규모 언어 모델입니다. 이는 일반, 수학 및 코딩 능력에서 유사한 크기의 최고 수준의 자동 회귀 언어 모델과 일치하거나 능가하는 7B 파라미터 모델입니다.