Llibrería para la extracción de texto y tablas de Pdfs
Java
Publicado el 28 de Agosto del 2024 por Francisco Javier Rojas Garrido (26 códigos)
238 visualizaciones desde el 28 de Agosto del 2024

La aplicación de línea de comandos es un ejemplo de uso de la librería Java.
La librería se basa en la librería de pdfbox, y funciona buscando el layout de cada página seleccionada del pdf, y buscando estructuras de tabla.
Tras la llamada a la librería (a la que hay que pasar el archivo de pdf, y el rango de páginas), el resultado es una List<PdfTextElement>.
PdfTextElement es una interfaz que tiene dos implementaciones.
* Un texto básico (fuera de las tablas)
* Y un PdfTextTabulaElement, para estructura de tablas.
Esta implementación permite leer las dimensiones de la tabla y el texto de cada celda de la tabla.
Es sólo una versión beta.
Si no te funciona con alguna tabla de tus PDFs, puedes escribir un comentario, y lo vemos
Pongo aquí el enlace, por si le puede ser útli a alguien
https://frojasg1.com:8443/downloads_web/downloadServletv3?file=pdf_table_extractor_lib.v1.0&origin=lawebdelprogramador&language=Espanyol