
Buscar texto en XML
Publicado por Obed (1 intervención) el 10/03/2015 23:50:14
Hola buen dia.
Estoy haciendo un proyecto de recuperacion de informacion en donde tengo que leer un corpus de conversaciones que vienen en formato xml.
El xml contiene mas o menos esto:
y lo que necesito extraer es todo el texto, ubicado entre las etiquetas <text></text> de cada uno de los autores, que son identificados entre las etiquetas <author></author>
Lo que al final me gustaria es una lista con los textos que escribio cada uno de los autores, en el xml hay muchos autores pues son muchas conversaciones.
Si alguien me puede ayudar.
Estoy usando python, con ipython, y nltk pero creo que este ultimo no sirve para esto.
Saludos y gracias de antemano.
Estoy haciendo un proyecto de recuperacion de informacion en donde tengo que leer un corpus de conversaciones que vienen en formato xml.
El xml contiene mas o menos esto:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
<conversation id="e621da5de598c9321a1d505ea95e6a2d">
<message line="1">
<author>97964e7a9e8eb9cf78f2e4d7b2ff34c7</author>
<time>03:20</time>
<text>Hola.</text>
</message>
<message line="2">
<author>0158d0d6781fc4d493f243d4caa49747</author>
<time>03:20</time>
<text>hi.</text>
</message>
<message line="3">
<author>0158d0d6781fc4d493f243d4caa49747</author>
<time>03:20</time>
<text>whats up?</text>
</message>
y lo que necesito extraer es todo el texto, ubicado entre las etiquetas <text></text> de cada uno de los autores, que son identificados entre las etiquetas <author></author>
Lo que al final me gustaria es una lista con los textos que escribio cada uno de los autores, en el xml hay muchos autores pues son muchas conversaciones.
Si alguien me puede ayudar.
Estoy usando python, con ipython, y nltk pero creo que este ultimo no sirve para esto.
Saludos y gracias de antemano.
Valora esta pregunta


0