Extraer texto de Word desde una web externa
Publicado por siREZ (203 intervenciones) el 14/08/2013 17:20:41
Cordial saludo
quiero extraer un texto de un documento en Word desde una pagina web externa. Utilizo la siguiente función:
function Obtener_contenidos($url,$inicio='',$final){
$source = @file_get_contents($url)or die('se ha producido un error');
$posicion_inicio = strpos($source, $inicio) + strlen($inicio);
$posicion_final = strpos($source, $final) - $posicion_inicio;
$found_text = substr($source, $posicion_inicio, $posicion_final);
return $inicio . $found_text .$final;
}
$url = "http://www.pagina a consultar.doc";
$texto_extraido = Obtener_contenidos($url,'body','/body');
le doy algo de formato.........
$texto_extraido;= nl2br($texto_extraido;); //Transformar todos los saltos de linea en tag
echo $texto_extraido;
Lo que sucede es que me imprime unos caracteres raros al principio y al final.
como hago para eliminar estos caracteres (que son propios de MS-Word).
algunos caracteres son como estos:
ð¿9bjbjöàöà
4T”Š”ŠË.B
ÿÿÿÿÿÿ·” ” Û"ýÿÿÿÿ---8e4™<- /tÕÕÕÕÕ°°°Ÿ.¡.¡.¡.¡.¡.¡.$”0¢63JÅ. #°° # #Å.ÕÕÛÚ.2&2&2& #|ÕÕŸ.2& #Ÿ.2&2&Ç()Õÿÿÿÿ°$©15Î-$dß(‹.ð.0 /ç(,€3€$|€3)€3)x°n¼2&Úd> b°°°Å.Å.ü$6°°° / # # # #ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ€3°°°°°°°°°”
¡:
Deseo extraer el texto puro del documento de Word
gracias.
siREZ
quiero extraer un texto de un documento en Word desde una pagina web externa. Utilizo la siguiente función:
function Obtener_contenidos($url,$inicio='',$final){
$source = @file_get_contents($url)or die('se ha producido un error');
$posicion_inicio = strpos($source, $inicio) + strlen($inicio);
$posicion_final = strpos($source, $final) - $posicion_inicio;
$found_text = substr($source, $posicion_inicio, $posicion_final);
return $inicio . $found_text .$final;
}
$url = "http://www.pagina a consultar.doc";
$texto_extraido = Obtener_contenidos($url,'body','/body');
le doy algo de formato.........
$texto_extraido;= nl2br($texto_extraido;); //Transformar todos los saltos de linea en tag
echo $texto_extraido;
Lo que sucede es que me imprime unos caracteres raros al principio y al final.
como hago para eliminar estos caracteres (que son propios de MS-Word).
algunos caracteres son como estos:
ð¿9bjbjöàöà
4T”Š”ŠË.B
ÿÿÿÿÿÿ·” ” Û"ýÿÿÿÿ---8e4™<- /tÕÕÕÕÕ°°°Ÿ.¡.¡.¡.¡.¡.¡.$”0¢63JÅ. #°° # #Å.ÕÕÛÚ.2&2&2& #|ÕÕŸ.2& #Ÿ.2&2&Ç()Õÿÿÿÿ°$©15Î-$dß(‹.ð.0 /ç(,€3€$|€3)€3)x°n¼2&Úd> b°°°Å.Å.ü$6°°° / # # # #ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ€3°°°°°°°°°”
¡:
Deseo extraer el texto puro del documento de Word
gracias.
siREZ
Valora esta pregunta


0