Obtener los elementos de una página web
Publicado por DyoSa (1 intervención) el 22/10/2006 15:12:37
Hola:
Necesito guardar información de documentos XML en una base de datos. Los documentos XML los obtengo a partir de páginas web, y pasar los documentos en HTML, XHTML, ... a XML ya lo se hacer, utilizo una librería que se llama HotSAX. Aunque si sabéis de otra mejor, pues nunca está de más saberlo.
El problema es cómo puedo obtener los diferentes elementos del documento en XML. Os pongo un ejemplo: me interesa obtener las diferentes imágenes y menús con los enlaces de una página web.
Según tengo entendido, los SAX parsers me servirían para eso, ¿no? ¿O tengo que trabajar con otra cosa?
Y, ¿alguien sabe de algún tutorial, paginas web, etc (en español preferiblemente) que me enseñe a usar las librerías que necesite?
Por cierto, trabajo en java.
A ver si me podéis ayudar, que estoy un poco verde en esta rama, y cuantas más páginas web miro, más me lió. Gracias por adelantado
Necesito guardar información de documentos XML en una base de datos. Los documentos XML los obtengo a partir de páginas web, y pasar los documentos en HTML, XHTML, ... a XML ya lo se hacer, utilizo una librería que se llama HotSAX. Aunque si sabéis de otra mejor, pues nunca está de más saberlo.
El problema es cómo puedo obtener los diferentes elementos del documento en XML. Os pongo un ejemplo: me interesa obtener las diferentes imágenes y menús con los enlaces de una página web.
Según tengo entendido, los SAX parsers me servirían para eso, ¿no? ¿O tengo que trabajar con otra cosa?
Y, ¿alguien sabe de algún tutorial, paginas web, etc (en español preferiblemente) que me enseñe a usar las librerías que necesite?
Por cierto, trabajo en java.
A ver si me podéis ayudar, que estoy un poco verde en esta rama, y cuantas más páginas web miro, más me lió. Gracias por adelantado
Valora esta pregunta


0