什麼是 Hunyuan Video
HunyuanVideo 是騰訊開發的一個突破性的 AI 視頻生成框架,已完全開源。作為擁有 130 億參數的最大開源視頻生成模型,它在專業評估中超越了 Runway Gen-3 和 Luma 1.6 等領先的商業模型。該模型支持中文和英文輸入,並附帶視頻轉音頻生成和角色動畫工具等補充技術。用戶可以通過騰訊的元寶應用進行試用,或通過騰訊雲進行企業集成。
Hunyuan Video 如何運作?
HunyuanVideo 利用了一個全面的框架,集成了數據策劃、圖像-視頻聯合模型訓練和高效的大型模型訓練和推理基礎設施。它採用了具有全注意力機制的 Transformer 設計和獨特的 '雙流到單流' 混合模型架構進行視頻生成。與傳統模型使用 CLIP 或 T5 編碼器不同,它利用了具有僅解碼器結構的多模態大語言模型(MLLM)來改善圖像-文本對齊。該模型還配備了一個提示重寫模型,以微調用戶提示,使其更好地匹配模型偏好。此外,它實現了 FP8 量化,將內存使用量減少 50%,同時保持精度。
Hunyuan Video 的好處
用戶受益於 HunyuanVideo 生成電影級畫質視頻的能力,具有高物理精度和場景一致性。它提供無縫的攝像機移動、連續的動作序列和藝術性的鏡頭轉換,所有這些都來自簡單的文本提示。該模型在現實和虛擬風格方面都表現出色,支持語音控制和視頻配音功能,並保持強大的物理一致性,以減少觀眾的脫離感。作為一個開源解決方案,它使專業級視頻創作技術民主化,讓開發者和創作者能夠創新,同時通過預訓練能力節省資源。
相關文章
查看更多