Actualizado el 17 de Abril del 2021 (Publicado el 3 de Agosto del 2018)
707 visualizaciones desde el 3 de Agosto del 2018
54,5 KB
4 paginas
Creado hace 19a (03/12/2005)
Bajarse una página web entera: wget
Bajarse una página web entera: wget
Por Paco Aldarias Raya
Impreso: 3 de diciembre de 2005
Email: pacolinux arroba inicia punto es
Web: http://pagina.de/pacodebian
Con Linux Debian. En Valencia (España)
El documento tiene version .html, y .pdf, cambiando en el navegador la
parte final podrás acceder a ambos.
Este documento es de libre reproducción siempre que se cite su fuente.
Realizado con: LATEX
Índice
Índice
1. Introducción
2. Instalación
3. Uso
4. Ejemplo
5. Descarga controlada por un fichero.
6. Descargar una pagina con nc
7. Comentarios
8. Bibliografía
1
1
1
2
2
3
3
3
4
Por Paco Aldarias
1/4
Bajarse una página web entera: wget
1.
Introducción
Podemos guardar una página web con el navegador, pero sólo se guarda
el texto que hay dentro.
Existe la posibilidad de traernos todo el contenido de una página web
usando wget.
2.
Instalación
Desde consola como root:
apt-get install wget lynx
Siendo:
1. wget. Permite bajarse webs o ficheros.
2. lynx. Navegador web en modo texto.
3. Uso
1. wget http://loquesea.com
Baja una página entera tal y como esta.
2. wget -r -l x -A jpg,jpeg,gif,png,mpg,mpeg http://loquesea.com
Para bajar sólo las imagenes jpg,jpeg,gif,png,mpg,mpeg:
Siendo donde x=nivel de recursión
3. wget –limit-rate=1k http://loquesea.com
Para bajar a una velocidad. Siendo 1k=limite de velocidad.
4. wget -rL -T 150 -np -k http://loquesea.com
-k para que transforme los links absolutos a relativos -np no parent. No
coge los subdirectorio superiores.
5. wget -rL -k -T 150 http://www.lapagina.com
Para q baje todos los archivos .jpg o .mpg de un link se puede poner q
sea recursivo.
Por Paco Aldarias
2/4
Bajarse una página web entera: wget
6. wget -c -nd -r -l 5 -T 150 -k http://loquesea.com
Baja una página entera y metiendolo todo en la misma carpeta donde
estamos:
Siendo:
-c indica que continue por donde se quedo la última vez.
-nd no crea la estructura jerarquica de directorios, lo mete todo junto.
-r recursivo. Indica que coga tb directorios.
-l nivel de prófundidad máxima.
-T segundo que se espera en caso de retrasos.
-k Una vez descargada la página convierte los enlaces para verse local-
mente.
4. Ejemplo
Para bajar la web de IES 25 abril:
http://intercentres.cult.gva.es/intercentres/46016713/ seria des-
de consola:
1. Crearmos la carpeta web:
mkdir web
2. Nos cambiamos a esa carpeta:
cd web
3. Nos bajamos la web principal.
wget -c -nd -np -r -l 5 -T 150 -k http://intercentres.cult.
gva.es/intercentres/46016713/index.htm
5. Descarga controlada por un fichero.
1. Vamos a la página web:
http://intercentres.cult.gva.es/intercentres/46016713/index.
htm
2. Guardamos la pagina en el fichero lista.txt
lynx --dump \
http://intercentres.cult.gva.es/intercentres/46016713/index.htm \
> lista.txt
Por Paco Aldarias
3/4
Bajarse una página web entera: wget
3. Editamos el fichero para dejar los sólo los enlaces que nos interesan:
nano lista.txt
4. Bajamos esos enlaces:
wget -i lista.txt
6. Descargar una pagina con nc
Utilidad tcp/ip que lee y escribe.
nc -l -p 80 < fichero.html
Siendo la p es puerto. y la l listen mode para conexiones entrantes.
7. Comentarios
1. Hay servidores webs q limitan el número de páginas q se pueden bajar.
2. Wget sólo baja las páginas que tienen enlaces a otra. El resto de ficheros
no los baja.
3. A partir de la versión 1.8 podemos limitar la velocidad de descarga. La
versión de debian woody es la 1.8.1.
8. Bibliografía
1. Esta página:
http://pagina.de/pacodebian
2. Com baixar varis arxius dúna pagina web gastant wget
http://bulma.net/body.phtml?nIdNoticia=716
3. Nova versió del potent wget (Descarreges web)
http://bulma.net/body.phtml?nIdNoticia=1054
Por Paco Aldarias
4/4
Comentarios de: Bajarse una página web entera: wget (0)
No hay comentarios