CambioML Introducción
CambioML es una empresa de infraestructura de aprendizaje automático de código abierto que proporciona herramientas para la recuperación de documentos y la extracción de datos de manera precisa, privada y configurable utilizando LLMs.
Ver más¿Qué es CambioML?
CambioML, fundado en 2023 por Rachel Hu y con sede en San José, CA, es una startup especializada en infraestructura de aprendizaje automático de código abierto. La empresa ofrece herramientas y bibliotecas como Uniflow y Pykoi que agilizan el proceso de extracción, transformación y análisis de datos de fuentes no estructuradas como PDFs, HTML y formularios. CambioML tiene como objetivo cerrar la brecha entre el desarrollo de ML y la producción, proporcionando una interfaz unificada para que los científicos de datos y los profesionales manejen de manera eficiente proyectos de aprendizaje automático a gran escala.
¿Cómo funciona CambioML?
La tecnología de CambioML aprovecha los Modelos de Lenguaje Grande (LLMs) para extraer y transformar datos de diversas fuentes no estructuradas. Su biblioteca Uniflow permite una extracción precisa de texto de documentos como PDFs y HTML, con características para la agrupación de datos y transformación a formatos deseados. La biblioteca Pykoi facilita el aprendizaje activo, permitiendo a los usuarios recopilar datos de demostración de etiquetado, entrenar modelos de Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) y comparar diferentes modelos. Las herramientas de CambioML están diseñadas para manejar datos multimodales, ofreciendo características como la redacción automática de información confidencial y el mapeo a esquemas específicos según sea necesario.
Beneficios de CambioML
El uso de las herramientas de CambioML proporciona varias ventajas para los científicos de datos y las organizaciones. Reduce significativamente el tiempo dedicado a la limpieza y preparación de datos, que tradicionalmente consume hasta el 50% del tiempo de un científico de datos. La tecnología ofrece una mayor precisión en la extracción de datos en comparación con los modelos tradicionales basados en OCR, con una tasa de error reportada un 90% más baja. Las soluciones de CambioML también priorizan la privacidad de los datos, permitiendo el despliegue local y la redacción de información confidencial. La capacidad de las herramientas para extraer información de datos propietarios con facilidad, junto con su naturaleza de código abierto, las hace valiosas tanto para la investigación como para aplicaciones empresariales, lo que permite una I+D más rápida y un manejo más eficiente de tareas de gestión de documentos a gran escala.
Ver más