Publicado el 5 de Abril del 2020
495 visualizaciones desde el 5 de Abril del 2020
2,6 MB
105 paginas
Creado hace 16a (22/01/2009)
UNED
Escuela Técnica Superior de Ingeniería Informática
Máster en Inteligencia Artificial Avanzada:
Fundamentos, Métodos y Aplicaciones
Especialidad en Sistemas Inteligentes
de Diagnóstico, Planificación y Control
Aprendizaje de redes bayesianas
en Carmen
Jesús Oliva Gonzalo
Tutores:
Prof. Manuel Arias Calleja
Prof. Francisco Javier Díez Vegas
Madrid - Septiembre de 2008
Índice general
Agradecimientos
Prólogo
1. Introducción
1.1. Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Objetivos
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Desarrollo y metodología . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4. Organización de la memoria . . . . . . . . . . . . . . . . . . . . . . . . . . .
V
VII
1
1
3
3
4
2. Estado de la técnica
7
8
2.1. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.2. Cuestiones generales sobre aprendizaje . . . . . . . . . . . . . . . . . . . . .
9
2.2.1. El problema del sobreajuste . . . . . . . . . . . . . . . . . . . . . . .
2.2.2. Aprendizaje probabilista . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3. Aprendizaje paramétrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1. Aprendizaje (estimación) de máxima verosimilitud . . . . . . . . . . 14
2.3.2. Aprendizaje bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4. Aprendizaje estructural a partir de relaciones de independencia . . . . . . . 16
2.5. Aprendizaje estructural mediante búsqueda heurística . . . . . . . . . . . . 18
2.5.1. Métricas de calidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5.2. Algoritmos de búsqueda . . . . . . . . . . . . . . . . . . . . . . . . . 23
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.6. Otras cuestiones
3. Diseño e implementación
29
3.1. Algoritmos de aprendizaje en Carmen . . . . . . . . . . . . . . . . . . . . . 29
3.1.1. Análisis de requisitos . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.2. Modelo de análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.3. Modelo de diseño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.4. Juntando las piezas del modelo de diseño . . . . . . . . . . . . . . . 39
3.2. Ejemplo: Algoritmo del gradiente . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3. Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.1. Análisis de requisitos . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.2. Modelo de diseño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.4. Almacenamiento de casos
3.4.1. Árbol de casos
i
ii
ÍNDICE GENERAL
3.4.2. Algoritmo de cálculo de frecuencias absolutas . . . . . . . . . . . . . 48
Interfaz de usuario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5.
4. Aplicaciones
4.2.1.
4.1. Aplicaciones en medicina
55
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.1. Mortalidad en enfermos de cáncer de pulmón . . . . . . . . . . . . . 57
4.1.2. Mortalidad en enfermos ingresados en la UCI . . . . . . . . . . . . . 61
4.2. Aplicaciones en economía . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Impago de hipotecas . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5. Conclusiones
5.1. Consecución de objetivos
5.2. Valoración del módulo de aprendizaje
71
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
. . . . . . . . . . . . . . . . . . . . . 73
5.2.1. Logros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.2.2. Limitaciones
5.3. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
A. Manual de Usuario
77
A.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
A.2. Cargar/Guardar bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . 79
A.3. Usar red modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
A.4. Selección de variables
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
A.5. Preprocesamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
A.5.1. Tratamiento de valores ausentes
. . . . . . . . . . . . . . . . . . . . 82
A.5.2. Discretización de variables continuas . . . . . . . . . . . . . . . . . . 83
A.5.3. Guardar base de datos preprocesada . . . . . . . . . . . . . . . . . . 84
A.6. Algoritmos y Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
A.7. Aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
A.8. Formatos aceptados
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
A.8.1. Formatos de bases de datos . . . . . . . . . . . . . . . . . . . . . . . 85
A.8.2. Formatos de redes modelo . . . . . . . . . . . . . . . . . . . . . . . . 87
ii
Índice de figuras
3.1. Modelo de análisis de un algoritmo de aprendizaje genérico en Carmen.
3.2. Paquetes y sus relaciones
3.3. Diagrama de clases UML del patrón Observer.
3.4. Diagrama de secuencias del patrón Observer.
3.5. Cambios en la interfaz de Observer.
3.6. Patrón observer de dos fases.
3.7. Diagrama de clases del patrón Command.
3.8. Diagrama de secuencias del patrón Command.
3.9. Patrón Command con las dos modificaciones para Hacer / Deshacer y ac-
. . 32
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
. . . . . . . . . . . . . . . . 36
. . . . . . . . . . . . . . . . . 36
. . . . . . . . . . . . . . . . . . . . . . 37
. . . . . . . . . . . . . . . . . . . . . . . . . . 37
. . . . . . . . . . . . . . . . . . . 38
. . . . . . . . . . . . . . . . 38
ciones compuestas.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
. . . . . . . . . . . . . . . . 40
3.10. Clases e interfaces en el paquete carmen.undo.
. . . . . . . . . . . . . . . . . 41
3.11. Diagrama de clases de un algoritmo genérico.
. 42
3.12. Diagrama de secuencias simplificado del funcionamiento de un algoritmo.
. . . . . . . . . . . . . . . . 44
3.13. Diagrama de clases del algoritmo del gradiente.
3.14. Diagrama de clases del paquete metrics.
. . . . . . . . . . . . . . . . . . . . 46
3.15. Evolución de la creación de un árbol de casos . . . . . . . . . . . . . . . . . 48
3.16. Búsqueda de valores en la tabla de frecuencias absolutas.
. . . . . . . . . . 49
. . . . . . . . . 51
3.17. Evolución del algoritmo de cálculo de frecuencias absolutas.
4.1. Red aprendida a partir de la base de datos de mortalidad en enfermos de
cáncer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2. Red de mortalidad en enfermos de cáncer, abierta en Elvira. . . . . . . . . . 60
4.3. Red aprendida que sirve para explicar la correlación nacimientos - cig¨ueñas. 61
4.4. Red aprendida a partir de la base de datos de pacientes ingresados en la UCI. 63
4.5. Red de pacientes ingresados en la UCI, abierta en Elvira.
. . . . . . . . . . 63
4.6. Red aprendida a partir de la base de datos de morosidad de hipotecas. . . . 66
. . . . . . . . . . . . . . 66
4.7. Red de morosidad de hipotecas, abierta en Elvira.
4.8. Red de morosidad de hipotecas obtenida tras la corrección.
. . . . . . . . . 68
A.1. Lanzamiento del módulo de aprendizaje de Carmen.
. . . . . . . . . . . . . 78
A.2. Aspecto inicial de la pestaña ’General’. . . . . . . . . . . . . . . . . . . . . . 78
A.3. Aspecto inicial de la pestaña ‘Variables’. . . . . . . . . . . . . . . . . . . . . 79
A.4. Aspecto de la pestaña ‘Variables’ una vez cargado un fichero de casos.
. . . 81
A.5. Opciones de tratamiento de valores ausentes.
. . . . . . . . . . . . . . . . . 83
A.6. Opciones de discretización.
. . . . . . . . . . . . . . . . . . . . . . . . . . . 84
A.7. Red resultante tras recolocar los nodos en pantalla. . . . . . . . . . . . . . . 86
iii
iv
ÍNDICE DE FIGURAS
iv
Agradecimientos
A todas las personas que me han ayudado en este trabajo. En especial, a mis tutores,
los Profs. Manuel Arias y Francisco Javier Díez, por su ayuda, consejos y colaboración
y por haberme dado autorización para incluir en esta memoria fragmentos de su tesis
doctoral, el primero, y de sus apuntes sobre modelos gráficos probabilistas, el segundo.
También me gustaría darle las gracias a D. Agustín Gómez de la Cámara, Jefe de la
Unidad de Investigación del Hospital Universitario 12 de Octubre de Madrid, por haber
puesto a mi disposición la base de datos sobre enfermos de cáncer de pulmón utilizada en
este trabajo y por las discusiones mantenidas que han servido como realimentación para
orientar las funcionalidades incluidas en el módulo desarrollado. Además, he de agradecer
la ayuda económica del programa de financiación de acciones específicas de CIBERESP
–Centro de Investigación Biomédica en Red de Epidemiología y Salud Pública– y al Grupo
Colaborativo para el Estudio del Carcinoma Broncogénico del Servicio de Neumología del
Hospital 12 de Octubre.
Además, me gustaría agradecer a D. José Javier Trujillano Cabello, por facilitarme la
base de datos sobre pacientes ingresados en la UCI polivalente del Hospital Universitario
Arnau de Vilanova de Lleida y a D. Antonio Ríos Zamarro, D. Manuel Padial y al resto de
integrantes del Área de Control Integral del Riesgo de CajaMadrid por haberme facilitado
la base de datos de riesgo en hipotecas y ayudarme a interpretar sus variables.
A mi familia, por su incondicional apoyo en todo lo que me he propuesto y por esa
mezcla de libertad y responsabilidad que siempre me han inculcado y que me ha llevado
a conseguir todas mis metas.
A mis amigos, que siempre han aportado esa pizca de alegría y locura ne
Comentarios de: Aprendizaje de redes bayesianas en Carmen (0)
No hay comentarios