Eliminar parte de un texto en Python
Publicado por Almuki87 (7 intervenciones) el 15/12/2015 10:59:17
Hola,
Tengo un problemilla con unos archivos html que tengo que tratar y dejar lo más limpios posible.
Estoy utilizando html2txt y funciona bastante bien para eliminar las etiquetas propias de html, el problema es que al principio de los archivos tengo una cabecera enooooorme en javascript y no consigo quitarla.
He pensado en construir un método que elimine el texto hasta donde está el texto que me sería útil en concreto hasta una etiqueta llamada <h2, después pasar el texto bueno a un archivo y a ese archivo pasarle el filtro html2txt para que limpie las etiquetas html.
El problema es que no sé cómo eliminar el texto hasta ese punto y me estoy volviendo loca intentándolo de distintas maneras.
Alguien podría ayudarme?
Gracias
Tengo un problemilla con unos archivos html que tengo que tratar y dejar lo más limpios posible.
Estoy utilizando html2txt y funciona bastante bien para eliminar las etiquetas propias de html, el problema es que al principio de los archivos tengo una cabecera enooooorme en javascript y no consigo quitarla.
He pensado en construir un método que elimine el texto hasta donde está el texto que me sería útil en concreto hasta una etiqueta llamada <h2, después pasar el texto bueno a un archivo y a ese archivo pasarle el filtro html2txt para que limpie las etiquetas html.
El problema es que no sé cómo eliminar el texto hasta ese punto y me estoy volviendo loca intentándolo de distintas maneras.
Alguien podría ayudarme?
Gracias
Valora esta pregunta


0