什麼是Molmo
Molmo是由Allen Institute for AI(Ai2)創建的一系列最先進的多模態AI模型。它超越了傳統的視覺理解,不僅能感知和解釋圖像,還能與虛擬和物理環境互動。Molmo家族包括各種尺寸的模型,其中最大的72B參數版本在性能上與GPT-4V和Gemini 1.5等專有模型相當,同時完全開源且在訓練數據使用上更高效。
Molmo 如何運作?
Molmo通過處理視覺和文本數據來理解和與圖像、圖表和用戶界面互動。它利用約100萬個高質量圖像-文本對的高度精選數據集,使其能夠以比典型大型模型更少的數據達到令人印象深刻的性能。Molmo可以識別物體、解釋複雜的視覺元素如圖表和菜單,甚至可以指向圖像中的特定元素。這種指向能力使Molmo能夠執行零樣本操作,允許Molmo在不分析底層代碼的情況下執行計數物體或導航網頁界面等任務。該模型有不同的大小,包括一個1B參數版本,可以在個人設備上高效運行,使其在各種應用中非常易於訪問。
Molmo 的優點
使用Molmo提供多項關鍵優勢。作為一個開源模型,它為開發者和研究人員提供了完整的代碼、數據和模型權重訪問權限,促進了AI社區的創新和協作。其在數據使用上的效率意味著它可以以更少的計算資源進行訓練和運行,使其更具成本效益和環保性。Molmo能夠理解和與視覺數據互動,為AI在網頁自動化、機器人和互動教育平台等領域的應用開闢了新的可能性。此外,其性能與專有模型相媲美,同時又免費提供,使先進AI技術的訪問民主化,允許更廣泛的用戶構建複雜的AI驅動工具和應用程序。
查看更多