¡Convierte tus documentos en datos!

Parsr es una herramienta de parseo, extracción y limpieza de documentos (imágenes, pdf, docx, eml) de huella mínima, que genera datos organizados y usables en formato, JSON, Markdown (MD), CSV/Pandas DF o TXT.
Provee información limpia y estructurada a analistas de datos y desarrolladores para aplicaciones que van desde ingreso de datos, automatización de análisis de documentos, archivos y muchas más.
Actualmente, Parsr puede realizar limpieza de documentos, regeneración de jerarquías (palabras, líneas, párrafos), detección de *títulos, tablas, listas, tablas de contenido, número de páginas, cabeceras, pie de página y más. Aquí hay un listado de todas las funcionalidades.

Tabla de Contenidos

Tabla de Contenidos
Primeros Pasos
- Instalación
- Uso
Documentación
Contribuir
Licencias de Terceros
Licencia

Primeros Pasos

Instalación

-- La guía de instalación avanzada está disponible aquí --

La forma más rápida de instalar y ejecutar la API de Parsr es a través de la imágen de Docker:

docker pull axarev/parsr

Si también quieres instalar la Interfaz Gráfica para enviar documentos y visualizar resultados:

docker pull axarev/parsr-ui-localhost

Nota: Parsr también puede ser instalado sin utilizar containers de Docker. El procedimiento a seguir está documentado en la guía de instalación.

Uso

-- La guía de uso avanzado está disponible aquí --

Para ejecutar la API:

docker run -p 3001:3001 axarev/parsr

Este comando lanzará la API en http://localhost:3001.
Consulta la documentación de uso de la API.

Para acceder al cliente python de la API de Parsr:
```
pip install parsr-client
```
Para probar la Jupyter Notebook usando el cliente de Python, dirígete a la demo jupyter.
Para utilizar la interfaz gráfica de Parsr (la API debe estar lanzada previamente):
```
docker run -t -p 8080:80 axarev/parsr-ui-localhost:latest
```
Luego podrás acceder desde http://localhost:8080.

Consulta la documentación de configuración para comprender las opciones configurables en la interfaz gráfica.

El uso a través de la API y el uso por línea de comandos están documentados en la guía de uso avanzado.

Documentación

Toda la documentación está disponible aquí.

Contribuir

Para contribuir con el proyecto, está disponible la guía de contribución.

Licencias de Terceros

Licencias de librerías de terceros para sus dependencias:

QPDF: Apache http://qpdf.sourceforge.net
ImageMagick: Apache 2.0 https://imagemagick.org/script/license.php
Pdfminer.six: MIT https://github.com/pdfminer/pdfminer.six/blob/master/LICENSE
PDF.js: Apache 2.0 https://github.com/mozilla/pdf.js
Tesseract: Apache 2.0 https://github.com/tesseract-ocr/tesseract
Camelot: MIT https://github.com/camelot-dev/camelot
MuPDF (Optional dependency): AGPL https://mupdf.com/license.html
Pandoc (Optional dependency): GPL https://github.com/jgm/pandoc

Licencia

Copyright 2020 AXA Group Operations S.A.
Licenciado bajo Apache 2.0 (ver licencia).

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_sp.md

README_sp.md

¡Convierte tus documentos en datos!

Tabla de Contenidos

Primeros Pasos

Instalación

Uso

Documentación

Contribuir

Licencias de Terceros

Licencia

Files

README_sp.md

Latest commit

History

README_sp.md

File metadata and controls

¡Convierte tus documentos en datos!

Tabla de Contenidos

Primeros Pasos

Instalación

Uso

Documentación

Contribuir

Licencias de Terceros

Licencia