我如何在 RunInfra 上构建我的第一个管道？

您可以用纯英文描述您想要部署的内容（例如，一个使用特定模型进行延迟优化的支持副驾驶）。然后 RunInfra 会构建并优化管道，您可以通过聊天迭代来完善需求，然后进行部署。

RunInfra 支持哪些模型？

RunInfra 支持 Hugging Face 经过验证的开放模型，涵盖多个类别，包括 LLM、语音（ASR）、嵌入、视觉和图像生成。如果模型受限或不受支持，RunInfra 会在您开始之前进行标记。

RunInfra 支持哪些服务引擎？

RunInfra 支持多种推理/服务引擎，包括 vLLM、SGLang、TensorRT-LLM、vLLM Omni、TEI 和 Transformers，它会对兼容的引擎进行基准测试，而不是假设只使用一个。

RunInfra 执行哪些类型的优化？

RunInfra 对配置进行分析和基准测试，并可能应用量化、KV 缓存调整（包括分页 KV 缓存）、推测解码、前缀缓存、连续批处理、FlashAttention v2、CUDA 图捕获和服务配置调整等技术——根据测量结果选择最佳的速度/内存/成本权衡。

我可以将管道部署为 API 吗？

是的。支持的管道可以部署为 REST 端点（一键完成）。如果管道尚未可部署，RunInfra 会指出原因，而不是部署一个损坏的端点。

我可以在哪里部署优化的堆栈？

您可以部署在 RunInfra 的托管云上，或者导出并部署到您自己的基础设施。支持的部署目标包括 RunInfra Cloud、RunPod、Modal 和 Vast.ai（可以选择部署到您自己的 RunPod/Modal 账户）。

RunInfra 与使用闭源 AI API 有何不同？

闭源 API 抽象了模型和基础设施。RunInfra 专注于开放模型，为您提供一个可检查、经过基准测试、可移植的部署工具包，这样您就可以拥有模型/运行时/GPU 堆栈，并根据您自己的延迟、吞吐量、VRAM 和成本目标进行优化。

我的数据在 RunInfra 上安全吗？

RunInfra 声明它在传输中和静态时都使用加密，在隔离的基础设施上运行，对推理数据零数据保留，不使用您的推理数据来训练模型，并且符合 SOC 2 Type II 标准。

RunInfra

WebsitePaidAI Code Assistant AI DevOps Assistant

RunInfra 通过对 GPU 进行基准测试、调整服务堆栈（引擎、内核、量化）以及部署或导出可检查、可移植的部署工具包，将简单的英语要求转化为生产 AI 推理端点。

访问网站

推广此工具

https://runinfra.ai/?ref=producthunt&utm_source=aipure

概述
视频
替代方案

产品信息

更新于：2026年07月08日

什么是 RunInfra

RunInfra 是 RightNow 的一个 AI 驱动的模型优化和推理基础设施平台，它帮助团队在生产环境中运行开源模型，而无需将部署视为黑盒。您描述所需的推理工作负载（模型、延迟/成本目标、硬件约束），RunInfra 会构建一个可测量的服务堆栈，您可以将其部署为托管 API 或导出以进行自托管。它支持各种开放模型（LLM、嵌入、ASR/TTS、视觉）和常见的服务引擎，同时强调可重现的基准测试、成本跟踪和最终堆栈的所有权。

RunInfra 的主要功能

RunInfra 是一个以聊天为原生的平台，用于将开源/“开放权重”AI 模型从选择阶段带入生产推理阶段：您描述所需的端点/工作负载，它会对兼容的 serving 引擎和 GPU 选项进行基准测试，应用运行时和内核级优化（例如，量化、FlashAttention、批处理、KV 缓存调优），然后部署生产 API 或导出可检查、可运行的部署工具包，以便您的团队能够拥有并重现具有测量延迟/吞吐量/显存/成本结果的成功堆栈。

纯英文管道构建器: 描述您想要部署的推理工作负载；RunInfra 将其转换为执行计划/运行手册，捕获模型、引擎、性能目标和约束，而无需手动编写配置。

模型 + 引擎比较和基准测试: 自动比较 serving 引擎（例如 vLLM、SGLang、TensorRT-LLM、TEI、Transformers）并基准测试实际性能指标，如 p95/p99 延迟、吞吐量、显存适配和每百万 token 的成本。

跨提供商的 GPU 适当尺寸调整: 评估 GPU 候选者（例如 L4、A10、L40S、RTX 4090、A100、H100、H200、B200），并帮助选择最佳成本/性能选项，然后部署到 RunInfra Cloud 或您自己的账户（Modal、RunPod、Vast.ai）。

推理优化和内核/运行时调优: 在支持的情况下应用优化——量化（例如 AWQ int4）、FlashAttention v2、连续批处理、分页 KV 缓存、CUDA 图捕获、推测解码、前缀缓存和服务配置调优——以降低延迟和成本，同时提高吞吐量。

可导出、可检查的部署工具包: 生成基准“收据”以及可移植的堆栈（例如 Dockerfile、compose/K8s 清单、脚本、runinfra.yaml），以便团队可以重现结果、修改设置并避免黑盒锁定。

生产 API 兼容性 + 安全态势: 支持与 OpenAI-SDK 兼容的使用模式（每个站点的副本），并强调企业控制，例如端到端加密、隔离的 GPU 基础设施、零数据保留和 SOC 2 Type II 声明。

RunInfra 的使用场景

SaaS LLM 聊天或副驾驶端点: 部署由开放模型（例如 Llama、Qwen、Mistral）支持的与 OpenAI 兼容的聊天/补全 API，具有调优的延迟/吞吐量和每百万 token 可预测的成本。

客户支持和联络中心自动化: 运行低延迟的指令遵循模型，用于工单分类、响应草拟和座席协助，使用基准测试来满足 p95 目标，并导出可用于合规性需求的堆栈。

语音和音频管道 (ASR/TTS): 提供 Whisper 或 TTS 系统等模型，并进行 p95 和成本检查，选择最佳引擎/GPU 组合以实现实时转录或语音生成。

RAG 和搜索基础设施（嵌入 + 重排序）: 部署嵌入模型（例如 BGE-M3、NV-Embed）和重排序器，并提供批处理吞吐量指标，以优化知识库和企业搜索的检索管道。

视觉和多模态推理: 托管视觉或视觉语言模型（例如 Pixtral、Qwen2-VL、Llama Vision），并进行硬件尺寸调整和运行时调优，以满足交互式延迟限制。

自托管 AI 的成本优化: 对于从封闭 API 迁移的团队，RunInfra 帮助寻找更便宜的 GPU/引擎/量化配置，并提供可重现的工具包，以便在选定的基础设施上运行。

优点

基于测量和基准测试的决策（延迟/吞吐量/显存/成本），而不是假设。

可移植、可检查的部署工件减少了锁定，并实现了团队所有权和可重现性。

跨引擎和跨 GPU 优化可以显著降低开放模型的成本并提高性能。

多个部署目标（托管端点或部署到您自己的云账户）提供了灵活性。

缺点

优化深度和内核调优的好处可能因模型/引擎/GPU 而异；并非每个工作负载都会看到显著的收益。

当导出/自托管时，操作责任可能会转移给用户（监控、扩展、更新）。

与 DIY 基础设施脚本相比，平台特定的工作流（聊天/管道构建器）可能需要投入采用精力。

某些声明（例如，安全保证、“零保留”）可能需要对受监管环境进行合同验证。

如何使用 RunInfra

1) 决定要部署什么（模型 + 任务 + 优先级）: 选择您关心的推理工作负载（例如，聊天 LLM、嵌入、ASR、TTS、视觉语言、图像生成）。决定您的主要优先级（最低成本、最低 p95 延迟、最高吞吐量、最佳质量）和任何约束（GPU/VRAM 限制、延迟目标、预算）。

2) 登录 RunInfra 并打开 Pipeline Builder: 访问 https://runinfra.ai/ 并登录（或注册）。打开 Pipeline Builder（仪表板）以开始一个新会话，您可以在其中用简单的英语描述您的端点。

3) 用简单的英语描述工作负载: 在构建器提示框中，描述您要运行的内容。包括：(a) 模型名称（或 Hugging Face 模型），(b) 端点类型（例如，聊天/完成、嵌入），(c) 性能目标（成本/延迟/吞吐量/质量），以及 (d) 任何检查（VRAM 匹配、p95/p99 延迟）。网站上显示的示例请求包括：“调整延迟：Qwen 2.5 7B 以实现低延迟”或“扩展检索：具有批量吞吐量指标的 BGE-M3 嵌入。”

4) 让 RunInfra 提出计划（引擎 + GPU + 优化）: RunInfra 将起草一个执行计划，比较兼容的服务引擎（例如，vLLM、SGLang、TensorRT-LLM、vLLM Omni、TEI、Transformers）并考虑 GPU 目标（例如，L4、A10、L40S、RTX 4090、A100、H100、H200、B200）。在运行之前审查计划。

5) 审查并接受优化计划: 该计划通常列出量化（例如，根据目标选择 AWQ/GPTQ/FP8/FP16）、FlashAttention/其他融合内核、连续批处理、分页 KV 缓存、CUDA 图捕获、推测解码、前缀缓存、张量并行大小调整、预热/自动调整和服务配置调整等阶段。接受计划以开始运行。

6) 运行优化 + 基准测试作业: RunInfra 执行阶段并对候选者进行基准测试。它测量关键指标，如 p95/p99 延迟、首个令牌时间、每 GPU 吞吐量、VRAM 使用/匹配以及每百万令牌成本。系统比较基线与优化配置，并确定“获胜”堆栈（引擎 + GPU + 设置）。

7) 检查基准测试收据（在发货之前）: 运行后，检查记录测量结果（延迟、吞吐量、VRAM、成本）和所用确切运行时配置的基准测试收据。这旨在可重现，而不是黑盒。

8) 检查和编辑优化后的运行时配置（可选）: 审查生成的配置（例如，runinfra.yaml）和引擎标志（批处理/并发设置、量化选择、KV 缓存数据类型、前缀缓存、推测解码、GPU 内存利用率）。如果您想要不同的权衡，请调整设置，然后根据需要重新运行基准测试。

9) 选择部署目标（托管或导出）: 选择在哪里运行获胜堆栈：(a) RunInfra 托管端点（按百万令牌计费），或 (b) 导出并部署到您自己的环境。网站显示了 RunInfra Cloud、您的 RunPod 帐户、Modal 或您自己的 Modal 工作区等目标。

10) 部署为 API 端点: 将优化后的堆栈部署为推理 API。RunInfra 支持将管道部署为 API，并提供具有自动缩放功能的托管端点选项。部署后，您可以从常用客户端调用端点（网站提到 Python、TypeScript、curl、LangChain、LlamaIndex、Vercel AI SDK）。

11) 导出部署工具包以进行自托管（可选）: 如果您想自己拥有和运行堆栈，请导出生成的部署工具包。该平台提供可运行的工件，例如 Dockerfile、启动脚本（例如，serve.sh/serve.py）、Kubernetes 清单、compose 文件和基准测试报告，以便您可以在其他地方重现测量的设置。

12) 运营和迭代（当需求变化时再次优化）: 如果您的流量模式、延迟目标、预算或模型发生变化，请重复工作流程：更新简单的英语要求，重新运行引擎/GPU 之间的比较，并发布新的测量获胜者。这使性能/成本与您的工作负载保持一致，而不是依赖于固定的闭源 API 默认值。