Mostrar los tags: layout

Se ha encontrado 1 coincidencia
<<>>
Se ha buscado por el tag: layout
Imágen de perfil

Llibrería para la extracción de texto y tablas de Pdfs


Java

Publicado el 28 de Agosto del 2024 por Francisco Javier Rojas Garrido (26 códigos)
241 visualizaciones desde el 28 de Agosto del 2024
pdf-table-extractor-example.v1.0

La aplicación de línea de comandos es un ejemplo de uso de la librería Java.

La librería se basa en la librería de pdfbox, y funciona buscando el layout de cada página seleccionada del pdf, y buscando estructuras de tabla.

Tras la llamada a la librería (a la que hay que pasar el archivo de pdf, y el rango de páginas), el resultado es una List<PdfTextElement>.

PdfTextElement es una interfaz que tiene dos implementaciones.
* Un texto básico (fuera de las tablas)
* Y un PdfTextTabulaElement, para estructura de tablas.
Esta implementación permite leer las dimensiones de la tabla y el texto de cada celda de la tabla.

Es sólo una versión beta.
Si no te funciona con alguna tabla de tus PDFs, puedes escribir un comentario, y lo vemos