Analizador del contenido de una página web
Python
Publicado el 6 de Marzo del 2014 por Xavi (548 códigos)
5.720 visualizaciones desde el 6 de Marzo del 2014
Clase de python que analiza el contenido de un archivo html, y puede devolver:
- El numero de palabras sin contar los tags HTML
- Una lista con todas las urls que contiene dicha página
- El titulo de la página
- El contenido de la página
- Devuelve una lista con todos los "title" de las url, imágenes, etc...
- Devuelve una lista con los "alt" de las imágenes, etc...
- Devuelve una lista con los meta de la pagina
- El numero de palabras sin contar los tags HTML
- Una lista con todas las urls que contiene dicha página
- El titulo de la página
- El contenido de la página
- Devuelve una lista con todos los "title" de las url, imágenes, etc...
- Devuelve una lista con los "alt" de las imágenes, etc...
- Devuelve una lista con los meta de la pagina