
Ayuda con la segmentación de texto
Publicado por Eva (1 intervención) el 27/06/2016 17:57:04
¡Hola, buenas! Necesito ayuda con la segmentación de textos en Python, sin recursos de NLTK preferiblemente. Tengo una forma de segmentar un texto pero, no sé por qué, me da o error, o me dice que alguna de las variables no están definidas, o no funciona...etc. La forma es la siguiente:
He probado diferentes cosas como cambiar la variable pero no me sale nada. Me da error.
Muchísimas gracias de antemano
1
2
3
4
5
6
7
8
9
10
import re
def tokenizar(texto):
texto_tokenizado = []
palabras = re.compile (r "[A-Z]{2,}(?![a-z])|[A-Z][a-z]+(?=[A-Z]|[\W%&'-]+")
oracion = re.compile (r "[A-Z][^\.!?]*[\.?!])")
oraciones_texto = re.findall (oracion, texto)
for oracion in oraciones_texto:
p = re.findall(palabras, oracion)
texto_tokenizado.append(p)
return texto_tokenizado
He probado diferentes cosas como cambiar la variable pero no me sale nada. Me da error.
Muchísimas gracias de antemano
Valora esta pregunta


0