Actualizado el 24 de Octubre del 2020 (Publicado el 28 de Julio del 2017)
2.295 visualizaciones desde el 28 de Julio del 2017
1,2 MB
100 paginas
Creado hace 18a (08/08/2006)
CENTRO DE INVESTIGACI ´ON Y DE ESTUDIOS AVANZADOS
DEL INSTITUTO POLIT´ECNICO NACIONAL
DEPARTAMENTO DE INGENIER´IA EL´ECTRICA
SECCI ´ON DE COMPUTACI ´ON
Redes Neuronales CMAC como Modelo de Clasificaci´on
en Miner´ıa de Datos
Tesis que presenta
Palacios Hern´andez Francisco
Para obtener el grado de
Maestro en Ciencias
En la especialidad de
Ingenier´ıa El´ectrica
Opci´on Computaci´on
Director: Dra. Xiaoou Li Zhang
Co-director: Dr. Luis E. Rocha Mier
M´exico, D.F., Agosto de 2006
ii
iv
Agradecimientos
Quiero agradecer en especial a mis padres por su apoyo incondicional, por su ejemplo
y dedicaci´on que han sido motivo de mi admiraci´on todos estos a˜nos.
A mis hermanos y familiares por su aliento y cari˜no, siempre me han hecho sentir
muy afortunado de tenerlos como familia.
A mis abuelitas Cari y Martha, aunque ya no est´en aqu´ı para verme se que estar´ıan
muy orgullosas de mi, gracias por todas sus ense˜nanzas.
A mis grandes amigos Jorge y Gil, que siempre estuvieron dispuestos a ayudarme y
con quien he compartido toda esta jornada.
A mis asesores la Dra. Xiaoou Li y el Dr. Luis E. Rocha, por su colaboraci´on en esta
tesis, por su tiempo y gu´ıa para la finalizaci´on exitosa de este trabajo.
Al Dr. Wen Yu por su valiosa colaboraci´on y comentarios en beneficio del contenido
de este trabajo de tesis.
A todos mis maestros de la seccci´on de Computaci´on por sus ense˜nanzas y a todo el
personal de la secci´on, en especial a Sofi por su amabilidad y ayuda incondicional.
A todos mis compa˜neros de la secci´on por su ayuda y consejo.
Al CINVESTAV.
Al CONACyT.
vi
Resumen
Los nuevos requerimientos en Miner´ıa de Datos demandan modelos con pe-
riodos de entrenamiento corto. Los modelos cl´asicos de redes neuronales que
se vienen utilizando para la clasificaci´on en Miner´ıa de Datos como MLP se
encuentran en clara desventaja, dado que una de sus principales limitantes
es el largo periodo que se requiere para su entrenamiento.
En este trabajo de tesis, proponemos como alternativa un modelo de clasi-
ficaci´on utilizando una red neuronal CMAC, cuya ventaja es el corto periodo
de entrenamiento que requiere. Dadas estas caracter´ısticas se puede entender
a CMAC como un clasificador que podr´ıa ser utilizado casi en tiempo-real.
Se describen las implicaciones y consideraciones en el dise˜no e implementa-
ci´on que se tienen al utilizar a la red CMAC como modelo de clasificaci´on
en el ´area de Miner´ıa de Datos.
Para evaluar el desempe˜no de la alternativa propuesta, se realizaron una
serie de casos de estudios en donde se lleva a cabo la comparaci´on con otros
modelos bien conocidos de clasificaci´on utilizando bases de datos de la vi-
da real. Al final los resultados obtenidos nos permitieron identificar el buen
desempe˜no que presentan las redes CMAC como modelo de clasificaci´on en
Miner´ıa de Datos.
Abstract
The new requirements in Data Mining demand models with short training periods. Clas-
sical models of neural networks used for classification in Data Mining such as MLP, they
are in clear disadvantage, because their training process is very slow.
In this thesis, we propose an alternative classification model, which uses a CMAC
neural network. The main advantage of CMAC is its short training period. In this way
CMAC can be understood as a classifier that can be used almost in real-time. We dis-
cuss the design and implementation of CMAC as a classification model.
In order to compare CMAC’s performance with other well-known classification mo-
dels, we performed a series of case studies with real-life datasets. The obtained results
show that CMAC is a viable model for classification in Data Mining.
viii
´Indice general
1. Introducci´on
1.1. Antecedentes
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Trabajo Relacionado . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Motivaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4. Objetivos
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5. Organizaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Miner´ıa de Datos y Clasificaci´on
2.1. Motivaci´on de la Miner´ıa de Datos
. . . . . . . . . . . . . . . . . . . .
2.2. El Proceso de la Miner´ıa de Datos . . . . . . . . . . . . . . . . . . . . .
2.3. Miner´ıa de Datos en Tiempo-Real . . . . . . . . . . . . . . . . . . . . .
2.4. T´ecnicas de la Miner´ıa de Datos . . . . . . . . . . . . . . . . . . . . . .
2.5. Clasificaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6. Modelos para la Clasificaci´on . . . . . . . . . . . . . . . . . . . . . . .
2.6.1. Clasificadores basados en ´arboles de decisi´on . . . . . . . . . . .
2.6.2. Clasificadores Bayesianos . . . . . . . . . . . . . . . . . . . . . .
2.6.3. Clasificadores basados en redes neuronales . . . . . . . . . . . .
2.7. Discusi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3. La Red Neuronal CMAC
3.1. Arquitectura y Funcionamiento . . . . . . . . . . . . . . . . . . . . . .
3.2. Ventajas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. Desventajas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5. CMAC como Aproximador de Funciones
. . . . . . . . . . . . . . . . .
3.6. Discusi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4. CMAC para Clasificaci´on en Miner´ıa de Datos
4.1. Mapeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Hashing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Evaluaci´on del desempe˜no de un modelo de clasificaci´on . . . . . . . . .
1
1
2
3
4
4
7
8
9
12
13
17
19
19
20
21
22
25
26
29
30
30
31
38
39
41
43
46
ix
´Indice general
4.4. Metodolog´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5. Discusi´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5. Casos de Estudio
5.1. Caso de estudio 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. Caso de estudio 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3. Caso de estudio 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4. An´alisis de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . .
6. Conclusiones y Trabajo Futuro
A. Par´ametros de CMAC como Aproximador de Funciones
A.1. Par´ametros de CMAC para aproximar la funci´on fsin . . . . . . . . . .
A.2. Par´ametros de CMAC para aproximar la funci´on fcos . . . . . . . . . .
A.3. Par´ametros de CMAC para aproximar la funci´on norm . . . . . . . . .
A.4. Par´ametros de CMAC para aproximar la funci´on fedge . . . . . . . . .
B. Par´ametros de los modelos de clasificaci´on en Miner´ıa de Datos
B.1. Par´ametros CMAC: Caso de estudio 1 . . . . . . . . . . . . . . . . . .
B.2. Par´ametros MLP: Caso de estudio 1 . . . . . . . . . . . . . . . . . . . .
B.3. Par´ametros C4.5: Caso de estudio 1 . . . . . . . . . . . . . . . . . . . .
B.4. Par´ametros CMAC: Caso de estudio 2 . . . . . . . . . . . . . . . . . .
B.5. Par´ametros MLP: Caso de estudio 2 . . . . . . . . . . . . . . . . . . . .
B.6. Par´ametros C4.5: Caso de estudio 2 . . . . . . . . . . . . . . . . . . . .
B.7. Par´ametros CMAC: Caso de estudio 3 . . . . . . . . . . . . . . . . . .
B.8. Par´ametros MLP: Caso de estudio 3 . . . . . . . . . . . . . . . . . . . .
B.9. Par´ametros C4.5: Caso de estudio 3 . . . . . . . . . . . . . . . . . . . .
C. Informaci´on detallada de las Bases de Datos
C.1. Base de Datos Mushrooms . . . . . . . . . . . . . . . . . . . . . . . . .
C.2. Base de Datos Adult . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.3. Base de Datos Clothing Store . . . . . . . . . . . . . . . . . . . . . . .
Bibliograf´ıa
x
48
52
53
53
54
57
60
61
63
64
65
66
67
69
70
72
72
73
74
74
75
76
76
77
78
79
80
83
´Indice de tablas
2.1. Extracto del conjunto de datos para clasificar el nivel de ingreso. . . . .
3.1. Algoritmo de CMAC. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Funciones a aproximar. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1. Tipos de dato en C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Matriz de confusi´on para un problema de 2 clases. . . . . . . . . . . . .
5.1. Precisi´on de los modelos utilizando la base de datos Mushrooms y un
esquema de 70 % de los datos utilizados para entrenamiento y 30 % para
prueba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
5.2. Variables seleccionadas de la base de datos Adult.
5.3. Precisi´on de los modelos utilizando la base de datos Adult y un esquema
de 70 % de los datos utilizados para entrenamiento y 30 % para prueba.
5.4. Selecci´on de variables utilizando el Enterprise Miner de SAS. . . . . . .
5.5. Precisi´on de los modelos utilizando la base de datos Clothing Store y un
esquema de 70 % de los datos utilizados para entrenamiento y 30 % para
prueba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
A.1. Par´ametros CMAC - fsin.
A.2. Par´ametros CMAC - fcos.
. . . . . . . . . . . . . . . . . . . . . . . . .
A.3. Par´ametros CMAC - norm. . . . . . . . . . . . . . . . . . . . . . . . . .
A.4. Par´ametros CMAC - fedge. . . . . . . . . . . . . . . . . . . . . . . . . .
B.1. Par´ametros CMAC: Caso de estudio 1.
B.2. Par´ametros MLP: Caso de estudio 1.
B.3. Par´ametros C4.5: Caso de estudio 1.
B.4. Par´ametros CMAC: Caso de estudio 2.
B.5. Par´ametros MLP: Caso de estudio 2.
B.6. Par´ametros C4.5: Caso de estudio 2.
B.7. Par´ametros CMAC: Caso de estudio 3.
B.8. Par´ametros MLP: Caso de estudio 3.
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. .
Comentarios de: Redes Neuronales CMAC como Modelo de Clasificación en Minería de Datos (1)
pero me gustaria que en lugar de formulas matematicas, vinieran representadas en codigo oseudocodigo. O sea que se extiendan y clarifiquen muy bien la parte matematica y la traduscan a un lenguaje de uso comun hasta donde se pueda.