Publicado el 20 de Julio del 2017
1.361 visualizaciones desde el 20 de Julio del 2017
4,8 MB
145 paginas
Creado hace 17a (18/02/2008)
Centro de Investigación y de Estudios Avanzados
del Instituto Politécnico Nacional
Departamento de Computación
Recuperación de Información en Bases de Datos
de tipo Bioinformático
Tesis que presenta
Elizabeth Luna Luz
para obtener el grado de
Maestra en Ciencias en
la Especialidad de Ingeniería Eléctrica
Director de Tesis
Dr. Guillermo Morales Luna
México, D.F.
Febrero 2008
ii
Agradecimientos
A mi madre por ser tan cariñosa y comprensiva en todo momento, a mi padre por
darme la fortaleza que siempre necesité, a mis hermanos por darme muchos ánimos,
pero sobre todo a Dios por darme una familia tan maravillosa que siempre me ha
apoyado en todo momento. Gracias porque una vez más lo hemos logrado juntos.
Agradezco al Dr. Guillermo Morales Luna por ser mi director de tesis, su gran
paciencia y por todo el apoyo que me ha brindado, a los doctores Sergio Víctor Chapa
Vergara y Julio Isael Pérez Carreón por apoyarme y ser mis sinodales. A Sofy quien
siempre estuvo en todo momento para ayudarme.
También quiero agradecer a Ricardo por apoyarme en esas arduas desveladas, a
Agustín quien ha sido mi amigo durante muchos años y a esos momentos de dis-
tracción juntos, a Amilcar por sus buenos consejos, a mis amigos de la maestría con
quienes he compartido momentos inolvidables: Juan, Fabiola, Carlos, Victor y Edu-
ardo.
Agradezco al Departamento de Biología Celular del Cinvestav-IPN, al laboratorio
del Dr.Saúl Villa Treviño, en especial al Dr.Julio Isael Pérez Carreón por su gran
participación en el planteamiento del problema y su apoyo.
Por otra parte, agradezco a todos mis profesores del Departamento de Computación
por transmitirme sus valiosos conocimientos.
Finalmente, agradezco al Departamento de Computación del Cinvestav-IPN, que
ha sido mi segunda casa durante mi maestría, al personal que en él labora, y al
CONACyT y COMECyT por su financiamiento en mis estudios.
iii
iv
Resúmen
En la actualidad diversas instituciones tienen la necesidad de realizar la gestión
de su información. La gran cantidad de datos generados provoca la dificultad en su
manipulación, por lo que es relavante la formulación de aplicaciones que permitan la
recuperación de datos. El Departamento de Bíologia Celular del Cinvestav-IPN no es
ajeno a esta problemática. Por ejemplo, el laboratorio del Dr. Saúl Villa Treviño ha
generado abundante información concerniente a la genómica del cáncer.
Este documento aborda la problemática que enfrenta el Departamento de Bíologia
Celular al tratar de manipular la gran cantidad de información recabada para sus
investigaciones, la cual proviene de diversas bases biológicas. Por lo que se plantea
como solución la creación de un sistema de información capaz de analizar, manipular
y administrar dicha información con la finalidad de agilizar las investigaciones.
Este proyecto trata entonces de un sistema recuperador de información dotado de
reglas heurísticas de búsqueda de intereses y aplicaciones propios para datos generados
en Biología Celular, mediante el uso de formas de almacenamiento y lenguajes de
consulta estándares, así como de herramientas de sofware libre para la elaboración
de dicho recuperador. Así la presente tesis constituye el esfuerzo interdiciplinario
generado entre la interacción del Departamento de Computación y el de Biología
Celular del Cinvestav. Aporta una aplicación en beneficio de la investigación.
v
vi
Abstract
Nowadays, several institutions have needs for the management of their informa-
tion. The huge volume of data produced has resulted difficult to be handling. The
Departamento de Biología Celular del Cinvestav-IPN is no stranger to this problem.
This work addresses that problem focused in the Departamento de Biología Celular
where it is trying to manipulate a vast amount of information collected in its research,
which comes from various biological sources. This thesis sets as a solution the creation
of an information system which can analyze, manipulate and manage information in
order to help and improve research activity.
This project involves an Information Retrieval System (IRS) based on heuristics
rules and searching of own interest and applications for Biología Celular data, using
standards types of storage and query languages, as well as open software tools for the
development of this IRS.
vii
viii
Índice general
Índice de tablas
Índice de figuras
Índice de tablas
1. Introducción
1.1. Motivación y antecedentes . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Principales objetivos
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
1.4. Organización de la tesis
1.3.1. Objetivos específicos
2. Bases de datos y recuperación de la información
2.1. Bases de datos relacionales . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1. Formas normales y optimización de bases de datos . . . . . . .
2.1.2. Beneficios de la normalización de datos . . . . . . . . . . . . .
2.2. Lenguajes de Consulta . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
2.2.1. QBE. Query By Example
2.2.2. Datalog. Database Logic
. . . . . . . . . . . . . . . . . . . . .
2.2.3. SQL. Structured Query Language . . . . . . . . . . . . . . . .
2.3. Manejador de bases de datos (DBMS) . . . . . . . . . . . . . . . . . .
2.3.1. Principales componentes de un DBMS . . . . . . . . . . . . .
2.3.2. Conectores a bases de datos . . . . . . . . . . . . . . . . . . .
2.4. Recuperación de Información . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
2.4.1. Minería de datos
2.4.2. Dependencia funcional
3. Bioinformática
3.1. Bases de datos bioinformáticas . . . . . . . . . . . . . . . . . . . . . .
3.2. Reseña de los servidores existentes
. . . . . . . . . . . . . . . . . . .
3.3. Accesos a base de datos bioinformáticas y sus lenguajes de consulta .
3.3.1. Acceso a Medline . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2. Acceso a GenBank . . . . . . . . . . . . . . . . . . . . . . . . .
ix
X
X
XII
1
1
3
3
3
4
5
5
6
7
7
8
9
11
14
15
15
16
16
18
21
21
23
23
24
24
x
ÍNDICE GENERAL
3.3.3. Acceso a SwissProt . . . . . . . . . . . . . . . . . . . . . . .
26
4. Diseño de un sistema de recuperación de información
4.1. Herramientos de software . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1. Lenguaje de programación . . . . . . . . . . . . . . . . . . . .
4.1.2. Manejador de bases de datos . . . . . . . . . . . . . . . . . . .
4.2. Estructura del nuevo sistema . . . . . . . . . . . . . . . . . . . . . . .
4.2.1. Descripción de módulos del sistema . . . . . . . . . . . . . . .
31
31
31
32
33
33
4.3. Diagramas en Lenguaje Unificado de Modelado (UML) del nuevo sistema 36
36
38
4.3.1. Diagramas de casos de uso . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
4.3.2. Diagramas de actividades
5. Implementación del nuevo sistema
5.1. Algoritmos para explotación de información . . . . . . . . . . . . . .
5.1.1. Algoritmos para búsqueda de depencias funcionales . . . . . .
5.1.2. Funciones de similitud . . . . . . . . . . . . . . . . . . . . . .
5.1.3. Algoritmos para migración de información . . . . . . . . . . .
6. Resultados
6.1. Resultados del nuevo sistema
. . . . . . . . . . . . . . . . . . . . . .
7. Conclusiones y trabajo futuro
A. Glosario
49
49
52
64
86
91
91
111
115
B. Programas realizados
117
B.1. Disco compacto anexo a esta tesis . . . . . . . . . . . . . . . . . . . . 117
B.2. Estructura de directorios del sistema y programas realizados . . . . . 117
B.3. Instalación del sistema . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Referencias
126
Índice de figuras
2.1. La Minería de datos es multidiciplanaria. . . . . . . . . . . . . . . . .
3.1. Acceso a Medline . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2. FTP GenBank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. FTP SwissProt
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4. FTP SwissProt
3.5. FTP SwissProt
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6. FTP SwissProt
dadas las cotas de similitud.
4.1. Esquema de procesos internos de Java . . . . . . . . . . . . . . . . . .
4.2. Diagrama del módulo de eliminación de redundancia
. . . . . . . . .
. . . . . . . . . .
4.3. Diagrama del módulo de visualización de subtablas
4.4. Diagrama de casos de uso y actores del sistema desarrollado.
. . . . .
4.5. Diagrama de casos de uso: visualizar datos seleccionados y buscar datos
. . . . . . . . . . . . . . . . . . . . . . .
4.6. Diagrama de casos de uso para la búsqueda de dependencias fun-
. . . .
4.7. Diagrama de actividades para encontrar las dependencias funcionales.
4.8. Diagrama de actividades para crear la composición de tablas. . . . . .
4.9. Diagrama de actividades para eliminar redundancia de registros. . . .
4.10. Diagrama de actividades para seleccionar registros.
. . . . . . . . . .
4.11. Diagrama de actividades para búsqueda de datos similiares y visualizar
. . . . . . . . . . . . . . . . . . . . . .
cionales, composición de tablas y eliminación de redundancia.
solo los campos seleccionados.
17
25
26
27
28
29
30
32
34
34
39
42
43
44
45
46
47
48
6.1.
6.2.
6.3.
6.4.
6.5.
Interfaz para dar de alta una tabla . . . . . . . . . . . . . . . . . . .
Interfaz para visualizar los campos de una tabla eligiendo una tabla
dada de alta en el sistema. . . . . . . . . . . . . . . . . . . . . . . . .
Interfaz para visualizar los campos de una tabla eligien
Comentarios de: Recuperación de Información en Bases de Datos de tipo Bioinformático (0)
No hay comentarios