creas un algoritmo que identifique lo importante y con alguna biblioteca de procesamiento de texto extraes esas características. tan simple como perdirlo
primero como mínimo, google, después: NLTK, Inflect,Beautifulsoup y contractions entre otras. Lo del idioma para eso usas diccionarios o inclusive traductores.