Parsear pagina web
Publicado por Ruben (28 intervenciones) el 05/04/2016 12:09:26
Hola
Estoy ocupado en raspar una web con PHP y la lib Simple HTML DOM pero entre que no tengo ni idea de ingles y que mis limitaciones a la hora de programar son considerables no doy arrancado...
El caso es que pretendo obtener los datos de una pagina web que se encuentran en etiquetas <a href>, el problema lo tengo a la hora de discriminar los datos que quiero, estos solo serian los que vendrian justamente despues de una etiqueta <th clospan>en la que el valor de la Eqtiqueta <a href> que contiene coincida con un valor que yo doy
ejemplo:
En este caso queria los datos posteriores a :
En este caso el valor que yo daria como condicion es que el valor de la etiqueta fuera 1
y los reslutados serian :
COLEGIO
NATACION
20:00
ESCURSION
GIMNASIA
....
Espero haberme explicado bien Gracias..
Estoy ocupado en raspar una web con PHP y la lib Simple HTML DOM pero entre que no tengo ni idea de ingles y que mis limitaciones a la hora de programar son considerables no doy arrancado...
El caso es que pretendo obtener los datos de una pagina web que se encuentran en etiquetas <a href>, el problema lo tengo a la hora de discriminar los datos que quiero, estos solo serian los que vendrian justamente despues de una etiqueta <th clospan>en la que el valor de la Eqtiqueta <a href> que contiene coincida con un valor que yo doy
ejemplo:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
<tr>
<th colspan="8"><a href="/Agenda S1">1</a></th>
</tr>
<tr>
<td class="hell" align="center"><a href="Agenda Dia Lunes "" title="del 22.08.2015"> 22.08.2015</td>
<td class="hell" align="center">20:30</td>
<td class="hell" align="right"><a href="Lunes Mañana " title="Lunes por la Mañana ">COLEGIO</a></td>
<td class="hell" align="center"> - </td>
<td class="hell"><a href="Lunes Tarde Semana uno " title="Lunes por la tarde ">NATACION</a></td>
<td class="hell" align="center">
<a href="La cena" title="Hora Cena">20:00 </a>
</td>
<td class="hell" align="center"></td>
<td class="hell" align="center"></td>
</tr>
<tr>
<td class="dunkel" align="center"><a href="Agenda Dia Martes " title=" del 23.08.2015">23.08.2015</td>
<td class="dunkel" align="center">18:30</td>
<td class="dunkel" align="right"><a href= “Martes Mañana " title="Martes por la mañana ">ESCURSION</a></td>
<td class="dunkel" align="center"> - </td>
<td class="dunkel"><a href=" Martes Tarde " title="Martes por la tarde >GIMNASIA</a></td>
<td class="dunkel" align="center">
<a href “dormir " title="Hora Dormir">00:15 </a>
</td>
<td class="dunkel" align="center"></td>
<td class="dunkel" align="center"></td>
</tr>
;……………………………………………………………
……………………………………………………………
<tr>
<th colspan="8"><a href="/Agenda S2">2</a></th>
</tr>
;……………………………………………………………
……………………………………………………………
En este caso queria los datos posteriores a :
1
<th colspan="8"><a href="/Agenda S1">1</a></th>
En este caso el valor que yo daria como condicion es que el valor de la etiqueta fuera 1
y los reslutados serian :
COLEGIO
NATACION
20:00
ESCURSION
GIMNASIA
....
Espero haberme explicado bien Gracias..
Valora esta pregunta


0