PDF de programación - Descubrimiento de Información en Textos Tarea del Tema 4: Comparativa de etiquetadores estadísticos

Volver

<<>>

Descubrimiento de Información en Textos Tarea del Tema 4: Comparativa de etiquetadores estadísticos

Publicado el 5 de Febrero del 2017

1.326 visualizaciones desde el 5 de Febrero del 2017

379,7 KB

13 paginas

Creado hace 14a (10/03/2011)

Descubrimiento de

Información en Textos

Tarea del Tema 4:
Comparativa de

etiquetadores estadísticos

Jose Alberto Benítez Andrades
71454586A
Descubrimiento de Información en Textos
Máster en Lenguajes y Sistemas Informáticos ‐ Tecnologías del Lenguaje en la Web
UNED
09/03/2011

Descripción de Información en Textos ‐ Tarea 4                              José Alberto Benítez Andrades

9 de marzo de 2011



0.Enunciado

Tarea del tema 4: Comparativa de etiquetadores estadísticos

En la siguiente página web:

http://www‐nlp.stanford.edu/links/statnlp.html

En
la sección ”Part of Speech Taggers” puedes encontrar numerosos etiquetadores
estadísticos. Muchos de ellos se basan en modelos distintos (HMMs, Support Vector Machine,
etc.), utilizan distintos corpus de entrenamiento, sirven para distintos idiomas, etc.

En esta tarea debes comparar el comportamiento de al menos dos de ellos. Estúdialos,
descríbelos (busca en la distribución y en la web detalles del modelo), y utilízalos para realizar
el etiquetado de un pequeño texto, el mismo para ambos. Para ello asegúrate que los
etiquetados elegidos sirven para el mismo idioma. Debes elegir un texto en el que aparezcan
palabras con más de una etiqueta léxica posible.

Después compara los resultados: etiquetas utilizas por cada etiquetador y precisión del
etiquetado. Para analizar la corrección puedes utilizar un texto de un corpus del que conozcas
el etiquetado correcto. En otro caso tendrás que realizar el etiquetado correcto manualmente.

Documentación a entregar:

 Descripción de los etiquetadores seleccionados.
 Texto de prueba utilizado.
 Resultado del etiquetado con cada etiquetador seleccionado.
 Observaciones sobre la comparativa de los resultados.

1.Descripción de los etiquetadores seleccionados
Después de intentar completar la instalación y puesta en marcha de varios de los
etiquetadores propuestos en la web dada en el enunciado, conseguí hacer funcionar
correctamente tres. Los etiquetadores estadísticos seleccionados han sido los tres siguientes:

I.

II.

III.

TreeTagger
http://www.ims.uni‐stuttgart.de/projekte/tc/
QtTag
http://phrasys.net/uob/om/software
SVMTool
http://www.lsi.upc.edu/ñlp/SVMTool/lrec2004‐gm.pdf

A continuación voy a describir los etiquetadores enumerados anteriormente.



Página 2

Descripción de Información en Textos ‐ Tarea 4                              José Alberto Benítez Andrades

9 de marzo de 2011

I. TreeTagger

En primer lugar, cabe destacar que fue creado por el personal de la Universidad de Stuttgart,
por el Instituto de la Lingüística Romance y el Instituto de Ciencias de la Computación
departamento de inteligencia artifical).

Fue completamente financiado al 100% por el Ministerio de Ciencia e Investigación del Estado
federado de Baden‐Württemberg (MWF, Stuttgart), en 1993/1994 y 1995/1996.

En 1993/1994 el proyecto recogió todo el material de texto necesario para el alemán, francés e
italiano, y se desarrolló una representación de los textos y las marcas, junto con un lenguaje de
consulta y un sistema de acceso para la exploración de corpus lingüísticos de los textos. Los
textos y análisis de resultados se mantienen separados unos de otros, por razones de
flexibilidad y extensibilidad del sistema. Esto es posible gracias a un enfoque particular para el
almacenamiento y la representación. Algunos de los componentes de la herramienta
actualmente se encuentran en fase de desarrollo, un idioma específico y general, van desde el
análisis morfosintáctico de análisis parciales, y de información mutua, la puntuación T‐, la
extracción de coubicación y la agrupación de etiquetado basados en HMM y etiquetado de n‐
grama. Actualmente se están realizando investigaciones sobre modelos estadísticos para los
sintagmas nominales, las colocaciones verbo‐objeto, etc.

Instalación

El primer paso para la instalación del mismo es seleccionar el paquete de instalación
correspondiente al sistema operativo que nosotros tengamos:

 PC‐Linux
 Sparc‐Solaris

Mac OS‐X (PowerPC)
 Mac OS‐X (Intel‐CPU)

En el caso que estudio en este trabajo, yo lo he instalado en un servidor local casero con una
distribución de Linux, concretamente Ubuntu 9.10 Karmic Koala Server.

En mi caso particular, para instalar este etiquetador, realicé los siguientes pasos, después de

1.Descargar los scripts etiquetados en el mismo directorio.

3.Descargar el script de instalación install‐tagger.sh .

4.Descargar los ficheros de parámetros para el sistema en el que se haya instalado la
aplicación (PC, Sparc‐Solaris, Mac‐Power‐PC, Mac‐Intel).

Para finalizar, abrimos un terminal y ejecutamos el fichero de instalación:

sh install‐tagger.sh



Página 3

Descripción de Información en Textos ‐ Tarea 4                              José Alberto Benítez Andrades

Finalmente para probar la aplicación, podemos escribir lo siguiente en la línea de comandos:

9 de marzo de 2011

echo 'Hello world!' | cmd/tree‐tagger‐english

Y veremos una salida como la que muestro en la imagen

Foto 1: Ventana de putty en windows 7 conectado a servidor local.

II. QTag

QTag es un etiquetador multiplataforma libre. Está implementado en lenguaje Java y ha sido
probado en Mac OS X, Linux y Windows. Trabaja, en principio, con cualquier idioma del que de
dispone de recursos, pero para el modo  "shrink‐wrap" sólo trabaja con ejemplos en Inglés.

La creación de ficheros de recursos de distintos idiomas, es algo compleja, pero el autor del
programa explica que no es muy común realizar ficheros de este tipo, con los lenguajes que
trae por defecto suele ser suficiente. Para añadir recursos nuevos, corpus nuevos, hay que
contactar con él mediante un correo electrónico.

Su creador es Oliver Mason, el cual se encuentra en la Universidad de Birmingham realizando
distintos estudios sobre este tipo de temas.



Página 4

Descripción de Información en Textos ‐ Tarea 4                              José Alberto Benítez Andrades

9 de marzo de 2011

Instalación y puesta en marcha

Este programa tiene una instalación bastante simple, sólo debemos descargar el siguiente
fichero:

‐ Fichero QTag (http://phrasys.net/uob/downloads/qtag.jar)

Y una vez descargado, si estamos bajo sistemas unix, debemos ejecutar en una terminal:

java ‐jar qtag.jar

Y si estamos en un sistema Windows, teniendo bien instalada la máquina virtual de JAVA con
sus correspondientes alias introducidos en el sistema, nos basta con hacer doble click sobre el
programa.

Foto 2: QTag ejecutado bajo Windows 7 Ultimate 64bits

En este caso, instalé la versión para Windows, en mi Windows 7 Ultimate 64 bits.

Su funcionamiento es sencillo, se elige el fichero que queremos analizar pulsando sobre el
botón "Browse" que se encuentra justo después del campo File to Tag.

Seleccionamos después el fichero de salida, y elegimos el tipo de salida que queremos obtener
(XML, con tabulaciones, completo, texto plano).



Página 5

Descripción de Información en Textos ‐ Tarea 4                              José Alberto Benítez Andrades

9 de marzo de 2011

III. SVMTool

Esta herramienta está compuesta por tres componentes principales, el aprendedor
(SVMTlearner), el etiquetador (SVMTagger) y el evaluador (SVMTeval).

Antes de realizar el etiquetado, los modelos de SVM aprenden de distintos corpus usando el
componente de aprendizaje. Se les enseñan diferentes estrategias a los distintos modelos.
Entonces, en el tiempo de etiquetado, usando el SVMTagger, se selecciona la mejor estrategia
para la propuesta de etiquetado que vamos a probar. Finalmente, dado un corpus anotado de
forma correcta, realizado con el componente SVMTool, es evaluado por el SVMTEval.

SVMTlearn

Se entrenan a unos clasificadores SVM mediante un conjunto de ejemplos dado. El SVMTlearn
tiene un fichero de configuración, en el que se pueden cambiar distintos parámetros que
enumeraré a continuación:

 Sliding window: el tamaño de la ventana deslizante se puede ajustar. Se puede

cambiar el tamaño de esta ventana, que por defecto es 5.

 Feature set: la ventana deslizante recogerá tres tipos de características distintas:

características de palabras, de POS (Part of Speech) y sufijos y ortografía.

 Feature filtering:
 SVM model compression: módulo que comprime los modelos de SVM para mejorar su

rapidez.

 C parameter tunning: permite personalizar una serie de parámetros a la hora de

realizar las pruebas.

 Dictionary repairing: permite reparar el diccionario.
 Ambigous classes: en ocasiones se encuentran palabras con ambigüedades que

mediante este parámetro se pueden subsanar.

 Open classes: estas clases son para las palabras que son desconocidas.
 Backup lexicon: contiene palabras que no están normalmente en un corpus.

SVMTagger

Dado un corpus y una ruta para un modelo de aprendizaje SVM aprendido, se crea un
etiquetado POS de una secuencia de palabras. El etiquetado está basado en una ventana
deslizante que da una visión del contexto que es considerado.Este componente también tiene
una serie de opciones como por ejemplo:

 Tagging scheme: se pueden utilizar dos esquemas de etiquetado distintos (Greedy y

sentence‐level)

 Tagging direction: la dirección del etiquetado, de izquierda a derecha, o de derecha a

izquierda, o una combinación de