Actualizado el 28 de Julio del 2017 (Publicado el 14 de Enero del 2017)
799 visualizaciones desde el 14 de Enero del 2017
1,1 MB
150 paginas
Creado hace 21a (04/03/2004)
Índice.
1.- Objetivos y antecedentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.- Lenguaje e informática.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.- Internet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.- Trabajos previos del Grupo de Estructura de Datos.
. . . . . . 16
2.- Planteamiento y desarrollo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.- Detección de neologismos. . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.- Relacionadas con la palabra.
. . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.- Medidas cuantitativas.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.- En la proximidad de la sintaxis.
. . . . . . . . . . . . . . . . . . . . . . 29
3.- Arquitectura de DAWeb.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.- Módulo de recuperación de documentos. . . . . . . . . . . . . . . . 31
3.1.1.-El módulo distribuidor.
. . . . . . . . . . . . . . . . . . . . . . 32
Página 1 de 150
3.1.2.-Los módulos recuperadores. . . . . . . . . . . . . . . . . . . 35
3.2.- Módulo de análisis de documentos.
. . . . . . . . . . . . . . . . . . 40
3.3.- El Mostrador. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.- El módulo de configuración. . . . . . . . . . . . . . . . . . . . . . . . . 50
4.- Arquitectura de NAWeb. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.1.- El módulo de lematización. . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.- El módulo de desambiguación. . . . . . . . . . . . . . . . . . . . . . . 56
4.3.- Módulo de clasificación.
. . . . . . . . . . . . . . . . . . . . . . . 60
5.- Módulos comunes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.1.- Módulo de extracción de texto. . . . . . . . . . . . . . . . . . . . . . . 62
5.2.- Módulo selector de palabras. . . . . . . . . . . . . . . . . . . . . . . . . 69
5.3.- Módulo de análisis morfológico. . . . . . . . . . . . . . . . . . . . . . 70
5.4.- Módulo optimizador de búsqueda morfológica.
. . . . . . . . . 71
6.- Interfaz de DAWeb. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Página 2 de 150
7.- Interfaz de NAWeb.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.1.- Zona de menús y barras de herramientas. . . . . . . . . . . . . . . . 94
7.2.- Zona de vistas y edición.
. . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.3.- Zona de análisis y datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.4.- Sincronización de la información mostrada.
. . . . . . . . . . . 111
8.- Conclusiones y perspectivas futuras.
. . . . . . . . . . . . . . . . . . . . . . . . 116
9.- Anexo I: Correspondencia entre secuencias alfabéticas y caracteres.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
10.- Anexo II: Etiquetas HTML.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
11.- Referencias.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
11.1.- Libros y artículos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
11.2.- Páginas web. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Página 3 de 150
Página 4 de 150
1.- Objetivos y antecedentes.
El objetivo general de la presente tesis consiste en obtener una estación
lexicológica orientada a Internet que integre un conjunto de aplicaciones
informáticas especializadas en tareas de análisis de textos en documentos
electrónicos disponibles en la metarred. En este propósito confluyen, de una parte,
Internet como ente generador y suministrador de recursos lingüísticos, de otra, la
investigación lingüística como cliente y beneficiaria del nuevo nicho de
oportunidades de estudio abierto por la red y, de una tercera, las técnicas
informáticas de gestión y presentación de información compleja como vehículo de
intermediación y catalización entre las dos anteriores.
1.1.- Lenguaje e informática.
La relación de la informática con el lenguaje no es nueva. El que se considera
el primer ordenador electrónico de propósito general —ENIAC— data de 1 946 y
la que parece ser la aplicación más antigua reconocible en el campo del
procesamiento del lenguaje natural —un sistema de búsqueda en diccionario
desarrollado en el Birkbeck College de Londres— data de 1 948. Con la traducción
automática arranca el interés por el tema en EEUU en 1 949; en esa época se creía
Página 5 de 150
posible resolver la traducción del lenguaje natural por extensión de los problemas
de criptografía —bastante desarrollados a raíz de la segunda guerra mundial. El
interés americano se extendió rápidamente a Francia, Inglaterra y la URSS; estuvo
primero centrado en la traducción del alemán —por la ingente cantidad de
documentos científicos capturados al terminar la guerra— y posteriormente en el
ruso —consecuencia de la guerra fría. Sin embargo, los enormes esfuerzos en esta
época resultaron improductivos por mor de la ingenuidad del planteamiento inicial,
ya que los lenguajes naturales son extraordinariamente más complejos que cualquier
código criptográfico. Tal reconocimiento desplaza el foco de atención hacia la
investigación lingüística como disciplina capaz de desbrozar esa complejidad y
proporcionar el conocimiento adecuado para conseguir las metas propuestas.
La interacción entre la investigación lingüística y la informática puede
considerarse mutua. De un lado, el trabajo del lingüista es indispensable para acercar
los grandes objetivos del procesamiento del lenguaje natural y que el ordenador
"entienda" y se exprese al menos en un subconjunto amplio de dicho lenguaje; por
otro, las herramientas desarrolladas por la informática pueden ayudar de forma
importante al lingüista en la realización de su labor —la colaboración entre ambas
disciplinas redunda en que los útiles mejorarán y se adaptarán más a las necesidades
reales del investigador. El abanico de herramientas que la informática ofrece abarca
Página 6 de 150
diversos grados de complejidad y especificidad: desde el procesador de textos hasta
las estaciones de trabajo lexicológicas.
Aunque no da mucho juego como herramienta de investigación lingüística,
un simple procesador de textos ya es una herramienta útil, al menos en la elaboración
de documentos y resultados. Los sistemas de gestión de bases de datos (SGBD)
constituyen una herramienta informática consolidada y pueden jugar un papel
bastante relevante en la organización de información lingüística. En [MALD98 ] se
lee: "...yo quería trabajar con fichas informáticas equivalentes a las fichas de toda
la vida, ordenadas alfabéticamente en aquellas cajas verdes de siempre... Es decir,
yo estaba demandando una base de datos" , y en [ALVA98] se afirma: "El paso más
adelantado en la redacción de diccionarios asistida por ordenador lo constituyen las
bases de datos". De especial relevancia en muchos aspectos de la investigación
lingüística son los sistemas de hipertexto; se hace referencia a ellos en [MORR99],
donde se analizan las dos formas en que la informática se incorpora al campo de la
crítica textual: aparece como consecuencia natural de las corrientes que, en busca de
la máxima objetividad y rigor en el proceso de depuración de la obra, preconizaban
el acercamiento de la literatura al campo de las ciencias exactas —en tal concepción
de la crítica textual, existe un importante aspecto mecánico en el que la informática
puede jugar un papel primordial como herramienta auxiliar en la fijación y
elaboración de ediciones.
Página 7 de 150
En consecuencia, se dispone de programas útiles para la colación y filiación
de textos, tanto desarrollados específicamente como tomados de otras áreas de
aplicación, así como de otros que ayudan a preparar el texto para la imprenta; no
obstante, ninguna de las metodologías desarrolladas consigue resultados congruentes
de forma automática sin intervención final del especialista. No parece la única
—quizás ni siquiera la principal— manera de aplicar la informática al campo de la
crítica textual ni ahora ni en un futuro. Otras corrientes descartan por inviable la
búsqueda de la versión "ideal" y se decantan por la publicación de cada uno de los
documentos que forman la historia de una obra literaria —lo que resulta complicado
en formato impreso tradicional—; el hipertexto parece la herramienta informática
adecuada para proporcionar una visión integradora de la obra, aunque puede resultar
inútil si se limita a un simple "amontonamiento" de versiones. La aportación de la
informática debe conducir a la superación del enfrentamiento entre ambas posturas:
reunir en formato electrónico el texto ideal y el proceso que permite llegar hasta él,
de modo que el lector pueda elaborar su propio juicio.
Cuando el planteamiento evoluciona hasta integrar un conjunto de
herramientas orientadas a la investigación lingüística y agrupadas en un entorno de
trabajo específico, aparecen las llamadas "estaciones de trabajo" —término tomado
del inglés ‘workstation’ que se emplea para designar un sistema de ‘hardware’ y
‘software’ integrados, relativamente potente y que funciona como herramienta
Página 8 de 150
centralizadora del trabajo personal de un investigador o desarrollador. En [MILL99]
se describe una estación de trabajo filológica como "un entorno informático
diseñado para manejar textos aislados o en conjunto y que contiene: 1) los datos,
2) las herramientas para su utilización y 3) la plataforma de desarrollo de la
Comentarios de: TesisZenon (0)
No hay comentarios