MulmoChat

MulmoChat

MulmoChat 是一个开源的多模态 AI 聊天界面,它无缝集成了语音聊天、图像生成和 Web 浏览功能,允许用户通过对话自然地进行交互,同时体验丰富的视觉和交互式内容。
https://github.com/receptron/MulmoChat?ref=producthunt&utm_source=aipure
MulmoChat

产品信息

更新于:2026年03月31日

什么是 MulmoChat

MulmoChat 是由前微软工程师中岛聪开发的突破性研究原型,它重新构想了传统的聊天界面。与传统的基于文本的聊天应用程序不同,MulmoChat 代表了一种新的多模态 AI 聊天体验范例,它统一了 GUI(图形用户界面)和 NLUI(自然语言用户界面)。该项目是开源的,需要 OpenAI 和 Google Gemini API 密钥才能运行,支持 Windows、macOS 和 Linux 平台。

MulmoChat 的主要功能

MulmoChat是一个研究原型,它通过将传统的基于文本的通信与丰富的视觉和交互内容相结合,彻底改变了AI聊天互动。它具有语音聊天功能、图像生成、网页浏览和多模态互动功能,用户可以在进行自然对话的同时,直接在画布上体验动态视觉内容,并由包括OpenAI、Anthropic、Google Gemini和Ollama在内的多个AI提供商提供支持。
多模态互动: 在单个对话界面中无缝集成文本、语音、图像和互动元素,超越了传统的纯文本聊天体验
提供商无关的文本生成: 通过统一的API接口支持多个AI提供商(OpenAI、Anthropic、Google Gemini、Ollama),从而实现灵活的模型选择和集成
高级图像生成: 与ComfyUI集成以进行本地图像生成,支持具有可自定义参数和工作流程的FLUX等高级模型
可扩展的插件架构: 允许开发人员通过插件扩展功能,从TypeScript合约到Vue视图和配置

MulmoChat 的使用场景

互动教育: 教师可以创建沉浸式学习体验,将口头解释与实时视觉辅助工具和互动元素相结合
设计协作: 设计师可以在实时生成和操作图像的同时讨论概念,从而简化创作过程
虚拟旅游: 旅行社可以提供结合地图功能、图像生成和自然对话的互动虚拟旅游

优点

高度灵活,支持多个AI提供商
丰富的多模态互动功能
开源且可扩展的架构

缺点

需要多个API密钥才能实现全部功能
具有各种依赖项的复杂设置
研究原型状态可能表明生产准备程度有限

如何使用 MulmoChat

安装依赖项: 运行 "yarn install" 以安装 MulmoChat 所需的所有依赖项
配置环境变量: 创建一个 .env 文件并添加所需的 API 密钥:OPENAI_API_KEY 和 GEMINI_API_KEY 是强制性的。可选密钥包括 GOOGLE_MAP_API_KEY、EXA_API_KEY、ANTHROPIC_API_KEY、OLLAMA_BASE_URL、COMFYUI_BASE_URL、COMFYUI_DEFAULT_MODEL 和 COMFYUI_TIMEOUT_MS
启动开发服务器: 运行 "yarn dev" 以启动开发服务器
允许麦克风访问: 打开浏览器时,允许它在提示时访问您的麦克风
开始语音聊天: 单击界面中的“开始语音聊天”按钮以开始与 AI 交互
可选:设置 ComfyUI 集成: 对于本地图像生成:1) 安装 ComfyUI Desktop,2) 启动 ComfyUI Desktop 服务器,3) 下载兼容的模型,如 flux1-schnell-fp8.safetensors,4) 如果需要,配置 ComfyUI 环境变量
开始多模态交互: 开始通过语音或文本与 AI 对话。该系统可以生成图像、显示地图,并根据您的对话提供交互式视觉内容

MulmoChat 常见问题

MulmoChat是一个研究原型,探索多模态AI聊天体验的新范例。与传统的基于文本的聊天界面不同,它允许用户在进行自然对话的同时,直接在画布上体验丰富的视觉和互动内容。

与 MulmoChat 类似的最新 AI 工具

Folderr
Folderr
Folderr 是一个全面的 AI 平台,允许用户通过上传无限文件、集成多个语言模型并通过用户友好的界面自动化工作流来创建自定义 AI 助手。
Peache.ai
Peache.ai
Peache.ai is an AI character chat playground that enables users to engage in flirty, witty, and daring conversations with diverse AI personalities through real-time interactions.
TalkPersona
TalkPersona
TalkPersona 是一个由AI驱动的视频聊天机器人,通过具有自然语音和唇同步功能的虚拟说话面孔提供实时类似人类的对话。
Thaly AI
Thaly AI
Thaly AI 是一个 AI 驱动的销售助手,通过自动化客户对话和潜在客户资格审查,帮助企业扩展销售运营并节省时间。