如何使用 CambioML
安装CambioML: 安装CambioML开源Python库,可能使用pip:pip install cambioml
导入并初始化: 导入库并使用您的API密钥初始化AnyParser:from any_parser import AnyParser; op = AnyParser(your_api_key)
准备您的文档: 准备好您的PDF、HTML或其他文档文件以进行提取
提取内容: 使用extract方法处理您的文档:content_result = op.extract(your_file_path)
配置输出: 指定您所需的输出格式(JSON、CSV或Markdown)和模式映射
审查并使用提取的数据: 检查提取的内容并将其用于您所需的目的(例如,LLM训练、数据库输入)
如有需要,进行编辑: 如果处理敏感信息,使用CambioML的编辑功能在检索过程中删除机密数据
与其他工具集成: 根据需要,将提取的数据与其他CambioML工具(如pykoi)结合使用,进行模型比较或RLHF微调
CambioML 常见问题
CambioML 是一家专注于开源机器学习基础设施的公司,提供从PDF、HTML和表单中提取和重建文本及数据的工具。他们利用大型语言模型(LLMs)提供精确的文档检索和数据提取解决方案。
查看更多