如何使用 CambioML
安裝CambioML: 使用pip安裝CambioML開源Python庫:pip install cambioml
導入並初始化: 導入庫並使用您的API密鑰初始化AnyParser:from any_parser import AnyParser; op = AnyParser(your_api_key)
準備您的文檔: 準備好您的PDF、HTML或其他文檔文件以進行提取
提取內容: 使用extract方法處理您的文檔:content_result = op.extract(your_file_path)
配置輸出: 指定您期望的輸出格式(JSON、CSV或Markdown)和模式映射
審查並使用提取的數據: 檢查提取的內容並將其用於您期望的目的(例如LLM訓練、數據庫輸入)
如有需要進行編輯: 如果處理敏感信息,使用CambioML的編輯功能在檢索過程中移除機密數據
與其他工具集成: 根據需要,將提取的數據與其他CambioML工具(如pykoi)結合使用,進行模型比較或RLHF微調
CambioML 常見問題
CambioML 是一家專注於開源機器學習基礎設施的公司,提供從 PDF、HTML 和表單中提取和重建文本及數據的工具。他們利用大型語言模型(LLMs)提供精確的文件檢索和數據提取解決方案。
查看更多