Memoria de Tesis Doctoral para optar al grado de
Doctor en Informática por la Universidad de Sevilla
presentada por
D. Roberto Ruiz Sánchez
Directores:
Dr. D. José C. Riquelme Santos
Dr. D. Jesús S. Aguilar Ruiz
Sevilla, mayo de 2006
Heurísticas de selección de atributos para entornos altamente dimensionales. Aplicación a bioinformática.
Copyright c 2006, por Roberto Ruiz Sánchez.
Todos los derechos reservados.
Your dedication goes here ... A Tránsito, sin tu paciencia y comprensión esta tesis no habría
sido posible.
Agradecimientos
Your acknowledgement goes here...
Índice general
Índice de figuras
Índice de tablas
Índice de algoritmos
Resumen
1. Introducción
.
.
.
.
. . .
.
.
. .
.
1.1. Planteamiento . .
.
1.2. Objetivos
.
1.3. Período de investigación .
4. Criterio de evaluación de atributos basado en proyecciones
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
4.4.1. Los primeros k atributos .
4.4.2. Normalizando el ranking . .
.
4.4.3. Evaluación del area bajo la curva de comportamiento de clasificación .
4.1.
4.2. Definiciones de proyecciones .
4.3. NLC: Número de Cambios de Etiqueta .
.
.
4.4. Evaluaciones experimentales .
. .
. .
.
. .
.
.
.
. .
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
. .
. .
. .
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
.
.
.
. .
. .
. .
. .
.
4.5. Conclusiones
. .
.
. .
.
.
.
. .
. .
. .
. .
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
69
70
73
78
81
83
90
98
. 112
.
.
Introduction . .
5. Búsqueda de un subconjunto de atributos sobre un ranking
.
.
.
.
.
2.1. Esquema General de KDD (Knowledge Discovery in Databases).
.
2.2. Fase de preparación de los datos. .
. .
.
2.3. Reducción de los datos en ambos sentidos: ejemplos y atributos.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
25
28
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
. .
. .
. .
.
.
3.1. Espacion de búsqueda.
37
3.2. Proceso de Selección de Atributos. .
.
38
3.3. Principales dimensiones de la selección de atributos .
45
3.4. División de los datos en carpetas. .
.
61
3.5. Proceso para validar los resultados al aplicar algoritmos de selección de atributos. 61
.
62
3.6. Reducción de un conjunto de datos.
.
.
.
.
3.7. Capacidades de los métodos de selección.
63
.
3.8. Diagrama de flujo de un prototipo de guía de algoritmos de selección.
64
.
3.9. Diagrama de flujo de algoritmos que utilizan consistencia como criterio de eva-
.
.
.
.
3.10. Comparación de algoritmos de selección.
3.11. Plataforma unificada.
.
. . .
.
.
.
.
. .
.
.
.
.
.
.
. .
. .
65
66
66
luación.
. .
. .
. . .
. . .
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4.1. Proyección de la base de datos IRIS en los atributos Sepalwidth–Sepallength.
. .
4.2. Proyección de la base de datos IRIS en los atributos Sepalwidth–Petalwidth.
.
.
4.3. Proyección de la base de datos IRIS en los atributos Petallength–Petalwidth.
.
.
.
4.4. Proyección de la base de datos WINE en los atributos C8-C7. .
.
.
. .
.
4.5. Base de datos artificial con 12 elementos y 2 etiquetas (P,I) .
.
.
4.6. Técnica SOAP. Subsecuencia del mismo valor. .
.
. .
.
.
.
4.7. Técnica SOAP. Ejemplo de contabilización de etiquetas.
.
.
.
.
. .
.
4.8. Ejemplo ficticio de tres tipos diferentes de curvas de aprendizaje. En el eje de
abscisas el no de atributos utilizados en la clasificación y en el de ordenada la
.
tasa de aciertos.
4.9. Curvas de aprendizaje obtenidas aplicando el clasificador C4 a diferentes ran-
. .
kings para la base de datos Glass2. . .
. .
.
.
.
.
.
. .
.
.
. . .
. . .
. . .
.
.
.
.
.
.
.
.
. .
. .
. .
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
70
71
71
72
73
81
81
. 102
. 102
ÍNDICE DE FIGURAS
4.10. Curvas de aprendizaje obtenidas aplicando el clasificador C4 a diferentes ran-
. .
4.11. Curvas de aprendizaje obtenidas aplicando el clasificador NB a dif
Links de descarga
http://lwp-l.com/pdf6820
Comentarios de: Heurísticas de selección de atributos para datos de gran dimensionado (0)
Comentarios de: Heurísticas de selección de atributos para datos de gran dimensionado (0)
No hay comentarios