
RunInfra
RunInfra 通过对 GPU 进行基准测试、调整服务堆栈(引擎、内核、量化)以及部署或导出可检查、可移植的部署工具包,将简单的英语要求转化为生产 AI 推理端点。
https://runinfra.ai/?ref=producthunt&utm_source=aipure

产品信息
更新于:2026年07月02日
什么是 RunInfra
RunInfra 是 RightNow 的一个 AI 驱动的模型优化和推理基础设施平台,它帮助团队在生产环境中运行开源模型,而无需将部署视为黑盒。您描述所需的推理工作负载(模型、延迟/成本目标、硬件约束),RunInfra 会构建一个可测量的服务堆栈,您可以将其部署为托管 API 或导出以进行自托管。它支持各种开放模型(LLM、嵌入、ASR/TTS、视觉)和常见的服务引擎,同时强调可重现的基准测试、成本跟踪和最终堆栈的所有权。
RunInfra 的主要功能
RunInfra 是一个以聊天为原生的平台,用于将开源/“开放权重”AI 模型从选择阶段带入生产推理阶段:您描述所需的端点/工作负载,它会对兼容的 serving 引擎和 GPU 选项进行基准测试,应用运行时和内核级优化(例如,量化、FlashAttention、批处理、KV 缓存调优),然后部署生产 API 或导出可检查、可运行的部署工具包,以便您的团队能够拥有并重现具有测量延迟/吞吐量/显存/成本结果的成功堆栈。
纯英文管道构建器: 描述您想要部署的推理工作负载;RunInfra 将其转换为执行计划/运行手册,捕获模型、引擎、性能目标和约束,而无需手动编写配置。
模型 + 引擎比较和基准测试: 自动比较 serving 引擎(例如 vLLM、SGLang、TensorRT-LLM、TEI、Transformers)并基准测试实际性能指标,如 p95/p99 延迟、吞吐量、显存适配和每百万 token 的成本。
跨提供商的 GPU 适当尺寸调整: 评估 GPU 候选者(例如 L4、A10、L40S、RTX 4090、A100、H100、H200、B200),并帮助选择最佳成本/性能选项,然后部署到 RunInfra Cloud 或您自己的账户(Modal、RunPod、Vast.ai)。
推理优化和内核/运行时调优: 在支持的情况下应用优化——量化(例如 AWQ int4)、FlashAttention v2、连续批处理、分页 KV 缓存、CUDA 图捕获、推测解码、前缀缓存和服务配置调优——以降低延迟和成本,同时提高吞吐量。
可导出、可检查的部署工具包: 生成基准“收据”以及可移植的堆栈(例如 Dockerfile、compose/K8s 清单、脚本、runinfra.yaml),以便团队可以重现结果、修改设置并避免黑盒锁定。
生产 API 兼容性 + 安全态势: 支持与 OpenAI-SDK 兼容的使用模式(每个站点的副本),并强调企业控制,例如端到端加密、隔离的 GPU 基础设施、零数据保留和 SOC 2 Type II 声明。
RunInfra 的使用场景
SaaS LLM 聊天或副驾驶端点: 部署由开放模型(例如 Llama、Qwen、Mistral)支持的与 OpenAI 兼容的聊天/补全 API,具有调优的延迟/吞吐量和每百万 token 可预测的成本。
客户支持和联络中心自动化: 运行低延迟的指令遵循模型,用于工单分类、响应草拟和座席协助,使用基准测试来满足 p95 目标,并导出可用于合规性需求的堆栈。
语音和音频管道 (ASR/TTS): 提供 Whisper 或 TTS 系统等模型,并进行 p95 和成本检查,选择最佳引擎/GPU 组合以实现实时转录或语音生成。
RAG 和搜索基础设施(嵌入 + 重排序): 部署嵌入模型(例如 BGE-M3、NV-Embed)和重排序器,并提供批处理吞吐量指标,以优化知识库和企业搜索的检索管道。
视觉和多模态推理: 托管视觉或视觉语言模型(例如 Pixtral、Qwen2-VL、Llama Vision),并进行硬件尺寸调整和运行时调优,以满足交互式延迟限制。
自托管 AI 的成本优化: 对于从封闭 API 迁移的团队,RunInfra 帮助寻找更便宜的 GPU/引擎/量化配置,并提供可重现的工具包,以便在选定的基础设施上运行。
优点
基于测量和基准测试的决策(延迟/吞吐量/显存/成本),而不是假设。
可移植、可检查的部署工件减少了锁定,并实现了团队所有权和可重现性。
跨引擎和跨 GPU 优化可以显著降低开放模型的成本并提高性能。
多个部署目标(托管端点或部署到您自己的云账户)提供了灵活性。
缺点
优化深度和内核调优的好处可能因模型/引擎/GPU 而异;并非每个工作负载都会看到显著的收益。
当导出/自托管时,操作责任可能会转移给用户(监控、扩展、更新)。
与 DIY 基础设施脚本相比,平台特定的工作流(聊天/管道构建器)可能需要投入采用精力。
某些声明(例如,安全保证、“零保留”)可能需要对受监管环境进行合同验证。
如何使用 RunInfra
1) 决定要部署什么(模型 + 任务 + 优先级): 选择您关心的推理工作负载(例如,聊天 LLM、嵌入、ASR、TTS、视觉语言、图像生成)。决定您的主要优先级(最低成本、最低 p95 延迟、最高吞吐量、最佳质量)和任何约束(GPU/VRAM 限制、延迟目标、预算)。
2) 登录 RunInfra 并打开 Pipeline Builder: 访问 https://runinfra.ai/ 并登录(或注册)。打开 Pipeline Builder(仪表板)以开始一个新会话,您可以在其中用简单的英语描述您的端点。
3) 用简单的英语描述工作负载: 在构建器提示框中,描述您要运行的内容。包括:(a) 模型名称(或 Hugging Face 模型),(b) 端点类型(例如,聊天/完成、嵌入),(c) 性能目标(成本/延迟/吞吐量/质量),以及 (d) 任何检查(VRAM 匹配、p95/p99 延迟)。网站上显示的示例请求包括:“调整延迟:Qwen 2.5 7B 以实现低延迟”或“扩展检索:具有批量吞吐量指标的 BGE-M3 嵌入。”
4) 让 RunInfra 提出计划(引擎 + GPU + 优化): RunInfra 将起草一个执行计划,比较兼容的服务引擎(例如,vLLM、SGLang、TensorRT-LLM、vLLM Omni、TEI、Transformers)并考虑 GPU 目标(例如,L4、A10、L40S、RTX 4090、A100、H100、H200、B200)。在运行之前审查计划。
5) 审查并接受优化计划: 该计划通常列出量化(例如,根据目标选择 AWQ/GPTQ/FP8/FP16)、FlashAttention/其他融合内核、连续批处理、分页 KV 缓存、CUDA 图捕获、推测解码、前缀缓存、张量并行大小调整、预热/自动调整和服务配置调整等阶段。接受计划以开始运行。
6) 运行优化 + 基准测试作业: RunInfra 执行阶段并对候选者进行基准测试。它测量关键指标,如 p95/p99 延迟、首个令牌时间、每 GPU 吞吐量、VRAM 使用/匹配以及每百万令牌成本。系统比较基线与优化配置,并确定“获胜”堆栈(引擎 + GPU + 设置)。
7) 检查基准测试收据(在发货之前): 运行后,检查记录测量结果(延迟、吞吐量、VRAM、成本)和所用确切运行时配置的基准测试收据。这旨在可重现,而不是黑盒。
8) 检查和编辑优化后的运行时配置(可选): 审查生成的配置(例如,runinfra.yaml)和引擎标志(批处理/并发设置、量化选择、KV 缓存数据类型、前缀缓存、推测解码、GPU 内存利用率)。如果您想要不同的权衡,请调整设置,然后根据需要重新运行基准测试。
9) 选择部署目标(托管或导出): 选择在哪里运行获胜堆栈:(a) RunInfra 托管端点(按百万令牌计费),或 (b) 导出并部署到您自己的环境。网站显示了 RunInfra Cloud、您的 RunPod 帐户、Modal 或您自己的 Modal 工作区等目标。
10) 部署为 API 端点: 将优化后的堆栈部署为推理 API。RunInfra 支持将管道部署为 API,并提供具有自动缩放功能的托管端点选项。部署后,您可以从常用客户端调用端点(网站提到 Python、TypeScript、curl、LangChain、LlamaIndex、Vercel AI SDK)。
11) 导出部署工具包以进行自托管(可选): 如果您想自己拥有和运行堆栈,请导出生成的部署工具包。该平台提供可运行的工件,例如 Dockerfile、启动脚本(例如,serve.sh/serve.py)、Kubernetes 清单、compose 文件和基准测试报告,以便您可以在其他地方重现测量的设置。
12) 运营和迭代(当需求变化时再次优化): 如果您的流量模式、延迟目标、预算或模型发生变化,请重复工作流程:更新简单的英语要求,重新运行引擎/GPU 之间的比较,并发布新的测量获胜者。这使性能/成本与您的工作负载保持一致,而不是依赖于固定的闭源 API 默认值。
RunInfra 常见问题
RunInfra 是一个由人工智能驱动的平台,它能将推理工作负载的纯英文描述转化为可用于生产的部署。它选择兼容的开放模型,对 GPU/引擎选项进行基准测试,调整运行时,并生成一个可部署(和可导出)的堆栈,并附带测量结果。











