
MulmoChat
MulmoChat 是一个开源的多模态 AI 聊天界面,它无缝集成了语音聊天、图像生成和 Web 浏览功能,允许用户通过对话自然地进行交互,同时体验丰富的视觉和交互式内容。
https://github.com/receptron/MulmoChat?ref=producthunt&utm_source=aipure

产品信息
更新于:2026年03月31日
什么是 MulmoChat
MulmoChat 是由前微软工程师中岛聪开发的突破性研究原型,它重新构想了传统的聊天界面。与传统的基于文本的聊天应用程序不同,MulmoChat 代表了一种新的多模态 AI 聊天体验范例,它统一了 GUI(图形用户界面)和 NLUI(自然语言用户界面)。该项目是开源的,需要 OpenAI 和 Google Gemini API 密钥才能运行,支持 Windows、macOS 和 Linux 平台。
MulmoChat 的主要功能
MulmoChat是一个研究原型,它通过将传统的基于文本的通信与丰富的视觉和交互内容相结合,彻底改变了AI聊天互动。它具有语音聊天功能、图像生成、网页浏览和多模态互动功能,用户可以在进行自然对话的同时,直接在画布上体验动态视觉内容,并由包括OpenAI、Anthropic、Google Gemini和Ollama在内的多个AI提供商提供支持。
多模态互动: 在单个对话界面中无缝集成文本、语音、图像和互动元素,超越了传统的纯文本聊天体验
提供商无关的文本生成: 通过统一的API接口支持多个AI提供商(OpenAI、Anthropic、Google Gemini、Ollama),从而实现灵活的模型选择和集成
高级图像生成: 与ComfyUI集成以进行本地图像生成,支持具有可自定义参数和工作流程的FLUX等高级模型
可扩展的插件架构: 允许开发人员通过插件扩展功能,从TypeScript合约到Vue视图和配置
MulmoChat 的使用场景
互动教育: 教师可以创建沉浸式学习体验,将口头解释与实时视觉辅助工具和互动元素相结合
设计协作: 设计师可以在实时生成和操作图像的同时讨论概念,从而简化创作过程
虚拟旅游: 旅行社可以提供结合地图功能、图像生成和自然对话的互动虚拟旅游
优点
高度灵活,支持多个AI提供商
丰富的多模态互动功能
开源且可扩展的架构
缺点
需要多个API密钥才能实现全部功能
具有各种依赖项的复杂设置
研究原型状态可能表明生产准备程度有限
如何使用 MulmoChat
安装依赖项: 运行 "yarn install" 以安装 MulmoChat 所需的所有依赖项
配置环境变量: 创建一个 .env 文件并添加所需的 API 密钥:OPENAI_API_KEY 和 GEMINI_API_KEY 是强制性的。可选密钥包括 GOOGLE_MAP_API_KEY、EXA_API_KEY、ANTHROPIC_API_KEY、OLLAMA_BASE_URL、COMFYUI_BASE_URL、COMFYUI_DEFAULT_MODEL 和 COMFYUI_TIMEOUT_MS
启动开发服务器: 运行 "yarn dev" 以启动开发服务器
允许麦克风访问: 打开浏览器时,允许它在提示时访问您的麦克风
开始语音聊天: 单击界面中的“开始语音聊天”按钮以开始与 AI 交互
可选:设置 ComfyUI 集成: 对于本地图像生成:1) 安装 ComfyUI Desktop,2) 启动 ComfyUI Desktop 服务器,3) 下载兼容的模型,如 flux1-schnell-fp8.safetensors,4) 如果需要,配置 ComfyUI 环境变量
开始多模态交互: 开始通过语音或文本与 AI 对话。该系统可以生成图像、显示地图,并根据您的对话提供交互式视觉内容
MulmoChat 常见问题
MulmoChat是一个研究原型,探索多模态AI聊天体验的新范例。与传统的基于文本的聊天界面不同,它允许用户在进行自然对话的同时,直接在画布上体验丰富的视觉和互动内容。











