Obtener HTML con ligas completas de paginas hechas
Publicado por saku (11 intervenciones) el 07/12/2010 03:56:55
Hola que tal, eh estado probando hacer un spider bot que obtenga las ligas de la pagina y las guarde.
toodo bien con la libreria curl de php, se obtiene el codigo HTML generado por las paginas, y se busca href= para obtener la liga.
href="http://drupal.org.es/node
pero me eh encontrado con el problema que las paginas hechas en CMS (drupal,jommla wikis,etc).
las ligas hacia su mismo sitio salen como rutas locales las cuales las da asi:
<li class="leaf"><a href="/planeta">Planeta DH</a></li>
<li class="leaf"><a href="/manuales">Manuales</a></li>
<li class="leaf"><a href="/foros">Foros</a></li>
<li class="leaf"><a href="/servicios" title="">Servicios</a></li>
<li class="leaf"><a href="/faq">FAQ</a></li>
<li class="leaf"><a href="/drupal">Sobre Drupal</a></li>
a esas ligas les faltaria http://drupal.org.es, alguien sabe como obtener el HTML con la ruta completa?
saludos gracias
toodo bien con la libreria curl de php, se obtiene el codigo HTML generado por las paginas, y se busca href= para obtener la liga.
href="http://drupal.org.es/node
pero me eh encontrado con el problema que las paginas hechas en CMS (drupal,jommla wikis,etc).
las ligas hacia su mismo sitio salen como rutas locales las cuales las da asi:
<li class="leaf"><a href="/planeta">Planeta DH</a></li>
<li class="leaf"><a href="/manuales">Manuales</a></li>
<li class="leaf"><a href="/foros">Foros</a></li>
<li class="leaf"><a href="/servicios" title="">Servicios</a></li>
<li class="leaf"><a href="/faq">FAQ</a></li>
<li class="leaf"><a href="/drupal">Sobre Drupal</a></li>
a esas ligas les faltaria http://drupal.org.es, alguien sabe como obtener el HTML con la ruta completa?
saludos gracias
Valora esta pregunta


0