PDF de programación - La naturaleza de la información semántica en la Web

Volver

Filtrado por el tag: tarjeta de sonido

<<>>

La naturaleza de la información semántica en la Web

Publicado el 16 de Mayo del 2019

727 visualizaciones desde el 16 de Mayo del 2019

2,1 MB

133 paginas

Creado hace 15a (30/10/2009)

La naturaleza de la información

semántica en la Web.

TESIS DE GRADO EN INGENIERIA INFORMATICA

FACULTAD DE INGENIERIA

UNIVERSIDAD DE BUENOS AIRES

TESISTA:

Daniel Fernández

DIRECTORES Lic. Gustavo López

Lic. Ismael Jeder
Lic. Arturo Servetto
Lic. Adriana Echeverría

Laboratorio de Informática de Gestión
Departamento de Computación

Mayo de 2009

Daniel Fernández

TESIS DE GRADO

2

Daniel Fernández

TESIS DE GRADO

Agradecimientos

A Paula por su paciencia y sus largas horas de compañía.

A mi familia por todo el apoyo brindado a lo largo de la carrera.

A los profesores que me han ayudado durante el desarrollo de este trabajo.

A mis amigos, colegas y compañeros que me proveyeron la fuerza necesaria

para seguir adelante.

Gracias a todos.

3

Daniel Fernández

TESIS DE GRADO

Resumen

La Web actual está

formada principalmente por un conjunto de
documentos cuya información semántica es fácilmente comprendida por los
usuarios y no así por las máquinas que los procesan automáticamente. En
este trabajo se estudiarán y compararán las principales tecnologías dedicadas
a procesar el significado de los datos de la Web para que puedan ser
interpretados por sistemas de computación. Asimismo, se presentará un
desarrollo basado en la tecnología más adecuada acorde a la investigación
llevada a cabo.

Abstract

Nowadays the Web is mostly composed by a group of documents whose
semantic information is easily understood by its users but not by the
computers which process the information automatically. This work will show
the analysis and comparison of the main technologies applied to process the
meaning of the data among the Web, so that it can be interpreted by computer
systems. This work will also show a development based on the more suitable
technology, according to the investigation being achieved.

4

Daniel Fernández

Índice

TESIS DE GRADO

Capítulo 1: Introducción ..................................... 7

1.1. Introducción ................................................................... 8
1.2. Motivaciones ................................................................. 10
1.3. Objetivos ...................................................................... 10
1.4. Estructura del documento ............................................... 11

Capítulo 2: La información ................................ 12

2.1. World Wide Web ............................................................ 13
2.2. El significado de los datos de la Web ................................ 15
2.3. El procesamiento del lenguaje natural .............................. 17
2.3.1.
Lenguaje ............................................................... 17
2.3.2. Historia ................................................................. 18
2.3.3. Cómo trabaja el PLN ............................................... 19
Problemas y limitaciones ......................................... 21
2.3.4.
2.4. EL PLN y la Web ............................................................ 24
2.5. Web Scraping ............................................................... 27
2.5.1. Dapper .................................................................. 29
2.5.2. Yahoo! Pipes .......................................................... 32
2.6. Aproximación top-down .................................................. 34
2.7. Nueva aproximación: bottom-up ..................................... 36
2.8. Resumen investigación ................................................... 38

Capítulo 3: Los metadatos ................................ 39

3.1. Los datos sobre los datos ............................................... 40
3.2. Web Semántica ............................................................. 42
3.2.1.
Las diferentes Capas ............................................... 43
3.2.2. Unicode ................................................................. 44
3.2.3. URI ....................................................................... 45
3.2.4. XML, NS y XML Schema ........................................... 46
3.2.5. RDF ...................................................................... 49
3.2.6. RDF Schema .......................................................... 57
3.2.7. OWL...................................................................... 59
Lógica ................................................................... 66
3.2.8.
3.2.9.
Prueba .................................................................. 67
Confianza ............................................................ 68
3.2.10.
3.3. Microformatos ............................................................... 69
3.3.1. hCard .................................................................... 70
3.3.2. hCalendar .............................................................. 71
3.3.3. hReview ................................................................ 72
3.4. Los problemas de la aproximación bottom-up ................... 74
3.5. Microformatos vs. RDF ................................................... 76
3.6. La tecnología más adecuada ........................................... 78
3.7. Resumen investigación ................................................... 79

5

Daniel Fernández

TESIS DE GRADO

Capítulo 4: La red social semántica .................... 80

4.1. Solución propuesta ........................................................ 81
4.1.1. Red social de dominio libre ...................................... 83
4.1.2. Creación de datos y metadatos ................................. 88
4.1.3. Búsqueda semántica ............................................... 92
4.1.4. Notificaciones semánticas ........................................ 96
4.1.5. Repositorio de esquemas calificados .......................... 97
4.1.6. Exportación de datos ............................................. 101
4.2. Ejemplo ..................................................................... 102
4.3. Pruebas y resultados .................................................... 123
4.3.1.
Pruebas ............................................................... 123
4.3.2. Resultados ........................................................... 125

Capítulo 5: Conclusiones y trabajo futuro .......... 128

5.1. Conclusiones ............................................................... 129
5.2. Futuras líneas de trabajo .............................................. 131
5.3. Bibliografía ................................................................. 132

6

Daniel Fernández

TESIS DE GRADO

Capítulo 1:
Introducción

En el presente capítulo, se introduce el tema que trata la tesis
exponiendo el problema que busca resolver, de manera de colaborar
con la comunidad científica. También, se listan las motivaciones que
llevaron a hacer este trabajo y los objetivos que se intentan alcanzar
en el mismo. Finalmente, se explica brevemente como está
conformada su estructura en capítulos y el contenido de cada uno de
ellos.

7

Daniel Fernández

TESIS DE GRADO

1.1.

Introducción

En los últimos tiempos, la Web se ha convertido en un instrumento de uso
diario para muchas personas, el cual es comparable con otros medios tales
como la radio, la televisión y el teléfono. Nos facilita la comunicación, el
intercambio de
transacciones
bancarias, etc. Pequeñas compañías, empresas internacionales, estados,
gobiernos de distintos países, universidades, bibliotecas, están presentes en la
Web. Todo esto conlleva a un notorio crecimiento en su volumen de datos y a
una necesidad de acceder a los mismos de una manera rápida y precisa.

información, podemos hacer compras,

Los buscadores cumplen un rol importante en facilitar el acceso a la
información que contiene la Web. Realizan un muy buen trabajo cuando se
trata de indexar dicha información y facilitarla ante una consulta. Algunos de
los buscadores más populares devuelven la información de páginas Web cuyos
contenidos coinciden exactamente con las palabras escritas por los usuarios.
Otros, mediante procesos sofisticados, intentan devolver al usuario resultados
más certeros.

La Web del presente consta de información básicamente representada en
forma de texto. Esta información es fácilmente comprensible por una persona
que la lea, sin embargo, es muy difícil realizar procedimientos automáticos que
procesen su significado y permitan la existencia de aplicaciones cada vez más
inteligentes. En estos momentos, la parte más importante en una búsqueda
Web la debe realizar el usuario. Por ejemplo, si una persona quiere encontrar
el hotel más barato en Bariloche debe realizar varias búsquedas de hoteles y
comparar precios hasta encontrar el
indicado. No puede solicitarle
directamente a su máquina que busque el hotel con menor tarifa a pesar de
que los datos necesarios están almacenados en la Web. Las máquinas pueden
acceder a dicha información pero el trabajo de interpretar su significado lo
deben efectuar las personas.

La estructura de la Web está conformada por lenguajes de etiquetado con
hiperenlaces, los mismos generan una relación fluida y dinámica entre los
documentos1 y la información que contienen. Sin embargo, dichos lenguajes
describen únicamente la forma en que la información debe ser presentada
ante el usuario por el nav