English | Français | Portuguese | 中文
-
Parsr es una herramienta de parseo, extracción y limpieza de documentos (imágenes, pdf, docx, eml) de huella mínima, que genera datos organizados y usables en formato, JSON, Markdown (MD), CSV/Pandas DF o TXT.
-
Provee información limpia y estructurada a analistas de datos y desarrolladores para aplicaciones que van desde ingreso de datos, automatización de análisis de documentos, archivos y muchas más.
-
Actualmente, Parsr puede realizar limpieza de documentos, regeneración de jerarquías (palabras, líneas, párrafos), detección de *títulos, tablas, listas, tablas de contenido, número de páginas, cabeceras, pie de página y más. Aquí hay un listado de todas las funcionalidades.
-- La guía de instalación avanzada está disponible aquí --
La forma más rápida de instalar y ejecutar la API de Parsr es a través de la imágen de Docker:
docker pull axarev/parsr
Si también quieres instalar la Interfaz Gráfica para enviar documentos y visualizar resultados:
docker pull axarev/parsr-ui-localhost
Nota: Parsr también puede ser instalado sin utilizar containers de Docker. El procedimiento a seguir está documentado en la guía de instalación.
-- La guía de uso avanzado está disponible aquí --
Para ejecutar la API:
docker run -p 3001:3001 axarev/parsr
Este comando lanzará la API en http://localhost:3001.
Consulta la documentación de uso de la API.
-
Para acceder al cliente python de la API de Parsr:
pip install parsr-client
Para probar la Jupyter Notebook usando el cliente de Python, dirígete a la demo jupyter.
-
Para utilizar la interfaz gráfica de Parsr (la API debe estar lanzada previamente):
docker run -t -p 8080:80 axarev/parsr-ui-localhost:latest
Luego podrás acceder desde http://localhost:8080.
Consulta la documentación de configuración para comprender las opciones configurables en la interfaz gráfica.
El uso a través de la API y el uso por línea de comandos están documentados en la guía de uso avanzado.
Toda la documentación está disponible aquí.
Para contribuir con el proyecto, está disponible la guía de contribución.
Licencias de librerías de terceros para sus dependencias:
- QPDF: Apache http://qpdf.sourceforge.net
- ImageMagick: Apache 2.0 https://imagemagick.org/script/license.php
- Pdfminer.six: MIT https://github.com/pdfminer/pdfminer.six/blob/master/LICENSE
- PDF.js: Apache 2.0 https://github.com/mozilla/pdf.js
- Tesseract: Apache 2.0 https://github.com/tesseract-ocr/tesseract
- Camelot: MIT https://github.com/camelot-dev/camelot
- MuPDF (Optional dependency): AGPL https://mupdf.com/license.html
- Pandoc (Optional dependency): GPL https://github.com/jgm/pandoc
Copyright 2020 AXA Group Operations S.A.
Licenciado bajo Apache 2.0 (ver licencia).