Dividir linea de texto
Publicado por Josafat (18 intervenciones) el 09/10/2018 04:03:16
Hola que tal, tengo un problema a la hora de extraer todas las url de un archivo txt, el problema es que a la hora de extraer las url hay algunas que deja juntas, como se muestra abajo:
http://www.itapizaco.edu.mx/magazine/index.htmlhttp://www.google.com/bot.html
http://www.itapizaco.edu.mx/magazine/files/mobile/index.htmlhttp://www.google.com/bot.html
yo quiero que aparezcan con salto de linea cada vez que comienza otra url, muestro mi código adelante y ojalá alguién pueda ayudarme con mi problema
http://www.itapizaco.edu.mx/magazine/index.htmlhttp://www.google.com/bot.html
http://www.itapizaco.edu.mx/magazine/files/mobile/index.htmlhttp://www.google.com/bot.html
yo quiero que aparezcan con salto de linea cada vez que comienza otra url, muestro mi código adelante y ojalá alguién pueda ayudarme con mi problema
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import re
cleanUrls=[]
urls2=[]
file2 = open("url.txt", "w")
with open("access.log") as file:
for line in file:
urls = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', line)
if urls not in cleanUrls:
#cleanUrls.append(urls)
cleanUrls.append(urls)
for u in cleanUrls:
str1 = ''.join(u)
if len(str1)>0:
file2.write(str1.rstrip(')'))
file2.write("\n")
Valora esta pregunta


0