
MulmoChat
MulmoChat 是一個開源的多模態 AI 聊天介面,它可以無縫整合語音聊天、圖像生成和網頁瀏覽功能,允許使用者通過對話自然地互動,同時體驗豐富的視覺和互動內容。
https://github.com/receptron/MulmoChat?ref=producthunt&utm_source=aipure

產品資訊
更新時間:2026年03月31日
什麼是 MulmoChat
MulmoChat 是由前微軟工程師中島聰開發的一款突破性研究原型,它重新構想了傳統的聊天介面。與傳統的基於文字的聊天應用程式不同,MulmoChat 代表了一種新的多模態 AI 聊天體驗範例,它統一了 GUI(圖形使用者介面)和 NLUI(自然語言使用者介面)。該專案是開源的,需要 OpenAI 和 Google Gemini API 金鑰才能運行,支援 Windows、macOS 和 Linux 平台。
MulmoChat 的主要功能
MulmoChat 是一個研究原型,它通過將傳統的基於文本的通信與豐富的視覺和交互內容相結合,徹底改變了 AI 聊天互動。它具有語音聊天功能、圖像生成、網絡瀏覽和多模式互動,用戶可以在參與自然對話的同時,直接在畫布上體驗動態視覺內容,並由包括 OpenAI、Anthropic、Google Gemini 和 Ollama 在內的多個 AI 提供商提供支持。
多模式互動: 在單個對話界面中無縫集成文本、語音、圖像和互動元素,超越傳統的純文本聊天體驗
與供應商無關的文本生成: 通過統一的 API 界面支持多個 AI 提供商(OpenAI、Anthropic、Google Gemini、Ollama),從而實現靈活的模型選擇和集成
高級圖像生成: 與 ComfyUI 集成以進行本地圖像生成,支持具有可自定義參數和工作流程的高級模型(如 FLUX)
可擴展的插件架構: 允許開發人員通過插件擴展功能,從 TypeScript 合約到 Vue 視圖和配置
MulmoChat 的使用案例
互動式教育: 教師可以創建沉浸式學習體驗,將口頭解釋與實時視覺輔助和互動元素相結合
設計協作: 設計師可以在實時生成和操作圖像的同時討論概念,從而簡化創作過程
虛擬旅遊: 旅行社可以提供互動式虛擬旅遊,結合地圖功能、圖像生成和自然對話
優點
高度靈活,支持多個 AI 提供商
豐富的多模式互動功能
開源且可擴展的架構
缺點
完整功能需要多個 API 密鑰
具有各種依賴項的複雜設置
研究原型狀態可能表明生產準備程度有限
如何使用 MulmoChat
安裝依賴項: 運行 'yarn install' 以安裝 MulmoChat 所需的所有依賴項
配置環境變數: 創建一個 .env 檔案並添加所需的 API 金鑰:OPENAI_API_KEY 和 GEMINI_API_KEY 是強制性的。可選金鑰包括 GOOGLE_MAP_API_KEY、EXA_API_KEY、ANTHROPIC_API_KEY、OLLAMA_BASE_URL、COMFYUI_BASE_URL、COMFYUI_DEFAULT_MODEL 和 COMFYUI_TIMEOUT_MS
啟動開發伺服器: 運行 'yarn dev' 以啟動開發伺服器
允許麥克風訪問: 打開瀏覽器時,允許它在提示時訪問您的麥克風
開始語音聊天: 點擊介面中的 '開始語音聊天' 按鈕以開始與 AI 互動
可選:設置 ComfyUI 整合: 對於本地圖像生成:1) 安裝 ComfyUI Desktop,2) 啟動 ComfyUI Desktop 伺服器,3) 下載相容的模型,如 flux1-schnell-fp8.safetensors,4) 根據需要配置 ComfyUI 環境變數
開始多模態互動: 開始通過語音或文字與 AI 對話。系統可以生成圖像、顯示地圖,並根據您的對話提供互動式視覺內容
MulmoChat 常見問題
MulmoChat 是一個研究原型,探索多模態 AI 聊天體驗的新範例。與傳統的基於文字的聊天介面不同,它允許使用者在進行自然對話的同時,直接在畫布上體驗豐富的視覺和互動內容。











