Publicado el 5 de Febrero del 2017
662 visualizaciones desde el 5 de Febrero del 2017
500,7 KB
17 paginas
Creado hace 13a (16/09/2011)
Modelos Computacionales
Actividad 3
José Alberto Benítez Andrades
71454586A
Modelos Computacionales
Máster en Lenguajes y Sistemas Informáticos ‐ Tecnologías del Lenguaje en la Web
UNED
15/02/2011
Modelos Computacionales ‐ Actividad 3 José Alberto Benítez Andrades
15 de febrero de 2011
(Verdejo, García‐Serrano, 2009) Este
0. Enunciado
Tema 3.‐ La web semántica (Web 3.0)
3.1 Estándares
3.2 Ontologías y su población
3.3 Modelos para recuperación de información
o El Tema 3 incluye los conceptos básicos y algunos de los estándares de la web semántica.
Además se estudiarán recursos existentes y aspectos candentes como la población de
ontologías. Finalmente se estudiarán algunos modelos de recuperación de información basada
en ontologías.
o Bibliografía básica:
libro contiene capítulos
independientes sobre temas de actualidad. En concreto para este tema del curso han de leerse
los capítulos: 2 y 4.
Ejercicio T3.1: Visitar la dirección http://wordnet.princeton.edu/ y resumir los aspectos mas
relevantes del recurso WordNet (WN) (en opinión del estudiante).
Ejercicio T3.2: Describir un recurso léxico semántico y multilingüe de los que aparecen en el
capítulo 2: qué tipo de información semántica incorpora, cómo la organiza, ventajas y
desventajas de su uso potencial en aplicaciones.
Ejercicio T3.3:
3.3.1 Definición de rol semántico.
3.3.2 Describir brevemente una arquitectura de tres capas potencialmente adecuada para la
identificación de roles semánticos (apartado tercero del capítulo 4).
Ejercicio T3.4:
3.4.1 Describir detalladamente
http://www.w3.org/TR/owl‐features/ )
3.4.2 Encontrar en algún repositorio de ontologías, una ontología de dominio. Puede visitar:
http://olp.dfki.de/ontoselect/
http://www.gnoss.com/comunidad/Interoperabilidadsemantica/recurso/Finding‐Ontologies‐
some‐help‐to‐find‐existing‐ont/a47e9be8‐0ab0‐4a71‐bd61‐b22a2c8b3
lo que es el OWL
lite
(por ejemplo en
Página 2
Modelos Computacionales ‐ Actividad 3 José Alberto Benítez Andrades
15 de febrero de 2011
1. Resolución.
Ejercicio T3.1: Visitar la dirección http://wordnet.princeton.edu/ y
resumir los aspectos mas relevantes del recurso WordNet (WN) (en
opinión del estudiante).
WordNet es una base de datos léxica estructurada a partir de las principales relaciones
conceptuales que vinculan entre sí a los lexemas intra‐ y trans‐categorialmente; algunas
relaciones, como la hiponimia, tienen como consecuencia la formación de un sistema
jerárquico en el que cada lexema ocupa una posición que le es propia y que además tiene
consecuencias directas en la atribución de sentido
En WordNet, el léxico está dividido en cinco categorías gramaticales: sustantivos, verbos,
adjetivos, adverbios y palabras funcionales; sin embargo, por el momento, sólo están incluidos
los sustantivos, los verbos, los adjetivos y los adverbios.
WordNet trata de dar respuesta práctica a algunas de las preguntas planteadas por la
semántica léxica, la cual postula que debe existir una asociación convencional entre un
concepto
lexicalizado y una expresión que cumple una función sintáctica. Dichos
planteamientos se refieren al tipo de expresiones que participan en esas asociaciones, a cuál
es la naturaleza y organización de los conceptos lexicalizados que las palabras pueden expresar
y al tipo de funciones sintácticas que las palabras tienen.
Una forma de concebir la base de datos de WordNet es a través de una matriz léxica en la que
se asocian las formas léxicas con los sentidos.
WordNet, constituye una base de datos léxico relacional que simula, parcialmente, la memoria
humana. Es muy tentador referirse a las posibles aplicaciones de este instrumento. Entre las
más obvias, tenemos la creación de diccionarios electrónicos multilingües, lo que sin duda
sería una herramienta de primera mano en el aprendizaje de lenguas extranjeras. Sin embargo,
no hay que dejar de lado que también es posible explotar el conjunto de relaciones dentro de
la base datos misma y luego generalizarlas a otros idiomas.
Las aplicaciones en este caso, serían múltiples y sin duda aún no hemos alcanzado a imaginar
todo lo que sería posible con WordNet. Entre las primeras posibilidades que se han previsto, se
encuentra la desambiguación automática de textos, como una herramienta que posee
información semántica pertinente sobre los sintagmas. Otras opciones no deben dejarse de
lado, como por ejemplo, el hecho de que WordNet ya ofrece una taxonomía del conocimiento,
la cual puede utilizarse como referencia para labores de indexación, por ejemplo. Tampoco
hay que olvidar las posibles aplicaciones en la educación y el aprendizaje de lenguas
extranjeras.
Página 3
Mode
elos Comput
tacionales ‐ A
José Alberto
Benítez And
drades
Actividad 3
15 de
e febrero de
J
2011
Ejer
los q
inco
en a
selec
un te
En lo
cont
utiliz
rcicio T3.2
que apar
orpora, có
aplicacion
En gener
ccionar un se
exto o discur
os últimos a
tinuación se
zan (Figura 1
2: Describ
ecen en e
ómo la org
nes.
ral, la desa
entido de un
rso.
ños se han
describe la c
1).
bir un re
el capítul
ganiza, ve
curso léx
lo 2: qué
entajas y
xico semá
tipo de in
desventaj
ntico y m
nformació
jas de su
multilingü
ón semán
uso poten
üe de
ntica
ncial
ambiguación
n conjunto de
del sentid
e posibilidad
do de las p
des predefini
palabras es
idas para un
el problem
a palabra da
ma de
ada en
incrementad
clasificación
do las invest
para métod
tigaciones pa
os de WSD d
ara crear mé
de acuerdo a
étodos de W
a los recurso
WSD. A
os que
ra 1. Clasifica
ación de los
métodos pa
ra WSD de a
acuerdo a los
s recursos qu
ue utilizan.
Figu
Mét
Los
dicci
‐ Los
Los d
Los d
méto
para
ejem
sent
entr
Adem
sino
‐ Los
Los c
todos para W
métodos pa
ionarios, los
s que utilizan
diccionarios
diccionarios
odos que ut
a cada palabr
mplo, Lesk (1
idos de pala
e sí, más coh
más existen
también otr
s que utilizan
corpus pued
WSD
ra desambig
que utilizan
n diccionario
pueden ser d
proporciona
tilizan sólo
ra en un text
1986) propo
abras relacio
herente será
variantes de
ro tipo de dic
n corpus:
en ser no ma
guación de s
corpus, y los
s:
de sentidos y
an una lista d
diccionarios
to dado, tom
one utilizar
onadas en el
el texto.
el algoritmo
ccionarios co
sentidos de
s que no util
palabras se
izan ningún
clasifican en
recurso léxic
n: los que u
co.
tilizan
y otros como
de glosas (de
de sentidos
mando en cu
la coherenc
texto: mien
o WordNet.
efinición de s
s, buscan ele
enta el cont
ia global de
ntras más re
sentido) para
egir un sent
exto en el qu
el texto, es
elacionadas e
a las palabra
ido (de esta
ue aparece.
decir, el tot
estén las pa
as. Los
a lista)
Como
tal de
labras
de Lesk que
omo WordNe
e utilizan no
et.
sólo diccion
narios de sen
ntidos,
arcados y ma
arcados.
Página 4
Modelos Computacionales ‐ Actividad 3 José Alberto Benítez Andrades
15 de febrero de 2011
Los métodos que utilizan corpus no marcados son los no supervisados, estos métodos
también utilizan otros recursos como WordNet para poder asignar un sentido a cada palabra
que aparece en los textos no marcados. Como ejemplo de éstos tenemos el método de
McCarthy et al. (2004), el cual elige de un diccionario (tesauro) las palabras relacionadas con
la palabra a desambiguar. Cada palabra relacionada tiene un peso, éstas y la palabra a
desambiguar tienen sentidos en un diccionario. Para elegir el sentido correcto, las palabras
relacionadas votan por un sentido de la palabra a desambiguar con cierto peso. Se elige el
sentido con más peso.
Los métodos que utilizan corpus marcados son los métodos supervisados. Éstos reducen la
desambiguación de sentidos de palabras a un problema de clasificación, donde a una palabra
dada se le asigna el sentido más apropiado de acuerdo a un conjunto de posibilidades,
basadas en el contexto en el que ocurre. Hay muchos algoritmos de aprendizaje supervisado
utilizados para WSD, como ejemplo tenemos los clasificadores bayesianos, máquinas de
soporte vectorial, árboles y listas de decisión, etc.
Hay métodos que utilizan una gran cantidad de corpus no marcados y muy pocos marcados
llamados mínimamente supervisados. Como ejemplo de éstos tenemos el método de
Yarowsky (1995), el cual identifica todas las ocurrencias de una palabra a desambiguar en un
corpus no marcado. Después identifica un número pequeño de colocaciones semilla
representativos de cada sentido de la palabra y etiqueta todos los ejemplos que contienen la
colocación semilla con la palabra de dicha colocación (así tenemos los conjuntos etiquetados
con cada sentido representativo y el conjunto residuo).
El algoritmo utiliza los conjuntos etiquetados para entrenar una lista de decisión y encontrar
nuevas colocaciones, para después etiquetar sobre el conjunto residuo. El algoritmo termina
cuando el conjunto residuo se estabiliza
‐ Los que utilizan programación directa:
Estos métodos se basan en reglas (muchas) que especifican el sentido de una palabra
de acuerdo al contexto en el que aparece. Un ejemplo son las restricciones de
selección (selectional restrictions), definen reglas de acuerdo a
la palabra a
desambiguar y su argumento. Ejemplo: el ve
Comentarios de: Modelos Computacionales - Actividad 3 (0)
No hay comentarios