
Augmentoolkit 3.0
Augmentoolkit 3.0 是一款经过改进和实战考验的开源工具,可创建领域专家数据集,以使用您自己的数据训练自定义 LLM,具有直观的界面、离线功能以及自动数据集生成和训练过程。
https://github.com/e-p-armstrong/augmentoolkit?ref=producthunt&utm_source=aipure

产品信息
更新于:2025年06月19日
什么是 Augmentoolkit 3.0
Augmentoolkit 3.0 代表了自定义 LLM 开发的重大演变,旨在帮助用户创建基于其特定数据和知识领域训练的领域专家 AI 模型。这款获得 MIT 许可的工具经过一年多的专业应用和实验的改进,使其成为创建专用 LLM 的领先解决方案。它允许用户上传文档,并以最少的技术专业知识生成训练数据集并训练自定义 AI 模型,这些模型可以深入理解特定的主题,无论是技术文档、研究论文还是虚构的宇宙。
Augmentoolkit 3.0 的主要功能
Augmentoolkit 3.0 是一个先进的数据生成和 LLM 训练平台,允许用户从自定义文档和文本创建领域专家 AI 模型。它具有改进的界面、自动化的训练过程,并且能够本地运行或通过 API 运行。该工具经过一年多的专业应用改进,生成了多样化的领域数据,同时自动将其与通用数据进行平衡,从而比以往任何时候都更容易创建专业的 AI 模型,而无需广泛的技术专业知识。
直观的界面: 具有图形用户界面作为一等公民,允许用户通过简单地上传文档和按下按钮来生成数据集
灵活的部署选项: 可以在本地的消费级硬件上运行,也可以通过 Deepinfra 等 API 运行,并具有中断过程的自动恢复功能
自动化的训练管道: 自动处理从数据生成到模型训练的整个过程,包括下载和准备用于推理的模型
Discord 机器人创建: 包括轻松将自定义构建的模型转换为 Discord 机器人的功能,以便与朋友或社区分享
Augmentoolkit 3.0 的使用场景
专业研究整合: 研究人员可以创建 AI 模型,理解并讨论其特定领域的最新论文和发展
企业知识管理: 公司可以开发 AI 助手,理解内部文档和程序,以帮助员工高效地访问信息
创意内容开发: 作家和创作者可以生成专业的 AI 模型,理解特定的虚构世界或写作风格,用于创意项目
数据分类项目: 机器学习专业人员可以从大型未标记的文本集合中创建分类数据集,而无需人工注释员
优点
用于创建自定义 AI 模型的经济高效的解决方案
使用所需的最低技术专业知识
支持本地和基于 API 的操作
缺点
小型数据集可能需要额外的优化步骤才能进行有效的训练
本地数据生成在消费级硬件上可能很慢
一些新功能仍处于实验/测试阶段
如何使用 Augmentoolkit 3.0
安装先决条件: 确保您的系统上安装了 Python 3.10 或 3.11。不支持其他版本。
克隆存储库: 运行 'git clone https://github.com/e-p-armstrong/augmentoolkit.git' 和 'cd augmentoolkit'
设置环境: 为您的操作系统运行适当的设置脚本:对于 MacOS,使用 'bash macos.sh'(或 'bash local_macos.sh' 用于本地生成),对于 Linux,使用 'bash linux.sh',对于 Windows,使用 './windows.bat'
准备输入数据: 将您的源文档(.txt 或 .md 文件,如书籍、手册、说明等)放在指定的输入文件夹中
配置设置: 使用适合您用例的适当设置调整 config.yaml 文件。关键设置包括输入/输出路径和模型参数。
生成数据集: 使用图形界面(推荐)或运行 processing.py 脚本来生成您的训练数据集。该界面将指导您完成整个过程。
监控进度: 如果中断,该工具将自动恢复。通过界面或控制台输出监控进度。
训练模型: 数据集生成完成后,如果配置为这样做(由 config 中的 do_train 设置控制),该工具可以自动开始模型训练
部署模型: 训练完成后,您可以本地提供您的模型,或使用 Augmentoolkit 的内置服务器功能将其部署为 Discord 机器人
Augmentoolkit 3.0 常见问题
Augmentoolkit 3.0是一个开源工具,用于创建领域专家数据集,以更新AI的知识,使其成为特定领域的专家。它经过一年多的专业应用改进,允许用户上传文档,只需按一下按钮即可创建完全训练的自定义LLM。