PyPdf escribe en una sola linea
Publicado por Álvaro (1 intervención) el 11/10/2012 12:54:38
Hola a todos,
estoy intentando convertir un PDF a TXT utilizando el módulo de Python pyddf.
El codigo que tengo es este:
Si bien el programa funciona observo que me escribe todo el contenido de cada hoja en una misma línea y me gustaría saber si hay alguna manera de escribir el contenido siguiendo la misma estructura de lineas.
estoy intentando convertir un PDF a TXT utilizando el módulo de Python pyddf.
El codigo que tengo es este:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
def getPDFContent(path):
content = ""
p = file(path, "rb")
pdf = pyPdf.PdfFileReader(p)
num_pages = pdf.getNumPages()
for i in range(0, num_pages):
content += pdf.getPage(i).extractText() + "\n"
content = " ".join(content.replace(u"\xa0", " ").strip().split())
return content
#MAIN DEL PROGRAMA
nombreFichero = sys.argv[1]
f = open('temp.txt','w')
f.write(getPDFContent(nombreFichero).encode("ascii", "xmlcharrefreplace"))
f.close()
Si bien el programa funciona observo que me escribe todo el contenido de cada hoja en una misma línea y me gustaría saber si hay alguna manera de escribir el contenido siguiendo la misma estructura de lineas.
Valora esta pregunta


0