Comunidad de Programadores

Iniciar sesión

Iniciar sesión

Crear cuenta

PDF de programación - Aprendizaje Inductivo - Clasificación y Clustering

Imágen de pdf Aprendizaje Inductivo - Clasificación y Clustering

Aprendizaje Inductivo - Clasificación y Clustering

Publicado el 31 de Julio del 2017

785 visualizaciones desde el 31 de Julio del 2017

6,1 MB

20 paginas

Creado hace 13a (01/11/2011)

Agenda
Aprendizaje Inductivo

Concepto

Clasificación

Árboles de Decisión
Clasificador Bayesiano

Clustering
K-means
Clustering jerárquico

Descubrimiento de conocimiento a Partir de Datos

D r . M a r c e l o G . A r m e n t a n o
D r . M a r c e l o G .
A r m e n t a n o

I S I S T A N , F a c . d e C s . E x a c t a s , U N I C E N
I S I S T A N , F a c . d e C s . E x a c t a s , U N I C E N

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Inducción vs. Deducción
Argumento deductivo

A ninguno de los alumnos le gusta matemáticas. Juan es

un alumno a Juan no le gusta matemáticas

Argumento inductivo

A ninguno de los alumnos que fueron entrevistados les

gusta matemáticas a ningún alumno le gusta
matemáticas

Aprendizaje por inducción
La descripción de un concepto, o clasificador, se

induce a partir de un conjunto de instancias dadas del
concepto (ejemplos)

No puede garantizarse correctitud
Es importante la interpretación humana

Jerarquía de aprendizaje

Aprendizaje
Inductivo

Aprendizaje
Supervisado

Aprendizaje no

supervisado

Clasificación

Regresión

Clustering

11

Agenda
Aprendizaje Inductivo

Concepto

Clasificación

Árboles de Decisión
Clasificador Bayesiano

Clustering

Clasificación
El objetivo de la clasificación de datos es organizar y

categorizar los datos en clases diferentes
Se crea un modelo basándose en la distribución de los datos
El modelo es luego usado para clasificar nuevos datos
Dado el modelo, se puede predecir la clase de un nuevo
dato

Si se deduce un valor discreto Clasificación
Si se deduce un valor continuo Regresión

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Preparación de los datos
Transformación de datos

Discretización de datos continuos
Normalización a [-1..1] o [0..1]
Generalización

Limpieza de datos

Suavizado para reducir el ruido y completar valores faltantes

Análisis de relevancia (Feature Selection)

Selección de características para eliminar atributos redundantes e

irrelevantes

Aplicaciones
Aprobación de créditos
Diagnóstico médico
Identificación de partes defectuosas en

manufactura

Detección de SPAM
Etiquetado de emails
Clasificación de documentos
Clasificación de usuarios
...

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Proceso de clasificación

Terminología

Datos de

Entrenamiento

Derivar

Clasificador

(Modelo)

Datos

Datos de
Prueba

Estimar
Exactitud

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

22

Terminología
Cada tupla se supone que pertenece a una clase
llamada

predefinida, dada por uno de los atributos,
etiqueta de clase

El conjunto de todas las tuplas usadas para la construcción

del modelo se llama conjunto de entrenamiento

El modelo se representa mediante alguna técnica. Por

ejemplo:
Reglas de clasificación (sentencias IF-THEN)
Árbol de decisión
Fórmulas matemáticas

Aprendizaje

Datos de

Entrenamiento

Algoritmos de
Clasificación

Clasificador
(Modelo)

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Evaluación del modelo
Se estima la exactitud del modelo basándose en un

conjunto de prueba
Se compara la etiqueta conocida de una muestra de

prueba con el resultado de aplicar el modelo de
clasificación

Accuracy rate (precisión) es el porcentaje de muestras
del conjunto de test que son correctamente clasificadas
por el modelo

El conjunto de test es independiente del conjunto de

entrenamiento (método holdout)

Evaluación de Exactitud

Datos de

Entrenamiento

Clasificador
(Modelo)

¿Qué tan preciso es el modelo?

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Evaluación del modelo
Holdout

Los datos se particionan aleatoriamente en 2 conjuntos independientes:

training set (2/3 de los datos) y test set (1/3 de los datos)

Random subsampling

Holdout k veces

K-fold cross validation

Datos iniciales particionados en k subconjuntos mutuamente excluyentes

de aproximadamente igual tamaño. Se hace training y testing k veces, se
calcula la exactitud promediando los resultados.

Stratisfied cross-validation

Los subconjuntos son armados de tal manera que la distribución de clase de

los ejemplos en cada uno es aproximadamente igual a la que tienen los
datos iniciales

Evaluación del modelo
Tasa de Error

error

h
)(

=

Precisión

n

i

i∑ =
y
n

1

≠

xh
i

(

)

precisión

1)(
h

−=

error

)(
h

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

33

Matriz de Confusión

Etiqueta
de clase
Verdaderos
C1
Verdaderos
C2
...

Verdaderos
Ck

Predicciones C1 Predicciones C2

... Predicciones Ck

M(C1,C1)

M(C1,C2)

... M(C1,Ck)

M(C2,C1)

M(C2,C2)

... M(C2,Ck)

...

...

...

...

M(Ck,C1)

M(Ck,C2)

... M(Ck,Ck)

CCM

(

,

i

)

=

j

∑

=

C

j

)(
xh
=
}

:

∀
,({

iCyTyx

∈
)

Clasificador ideal
M(Ci, Ci) Casos correctamente clasificados
M(Ci, Cj) i≠j Errores de clasificación

C1

C1 M(C1,C1)

C2
0

C2

...

Ck

0

...

0

M(C2,C2)

...

0

...
...

...

...

...

Ck
0

0

0

M(Ck,Ck)

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Evaluación del Modelo (Documentos)
Precisión

De la cantidad de veces que se predijo una clase, cuántas

fueron correctas?

Recall

Se encontraron todos los ejemplos que pertenecen a la

clase?

Precisión y recall

Clase real

Predicción

Verdaderos positivos (vp)
Falsos negativos (fn)

Falsos positivos (fp)
Verdaderos negativos
(vn)

precisión

=

vp
+

vp

fp

recall

=

vp
+

vp

fn

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Uso del modelo - Clasificación
El modelo se utiliza para clasificar nuevos objetos

Dar una etiqueta de clase a una nueva tupla
Predecir el valor de un atributo

Nuevos
Datos

Clasificador
(Modelo)

Mejorar la precisión: Clasificadores
compuestos
• Bagging: ej. consulto varios doctores y me quedo con la

opinión mayoritaria (la que tenga más votos)

• Boosting: ej. pondero cada diagnóstico según la exactitud

del médico (del clasificador)

Datos

Clasificador 1
Clasificador 1

Clasificador 2
Clasificador 2

……

Clasificador n
Clasificador n

Combinar
predicciones

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

44

Métodos de clasificación
Árboles de decisión
Redes Neuronales
Clasificador Bayesiano
Clasificación basada en asociación
Vecino más cercano
Razonamiento Basado en Casos
Algoritmos Genéticos
Modelos de Markov
...

Evaluación y comparación de
métodos de clasificación
Exactitud de predicción

Habilidad del modelo de predecir correctamente la etiqueta de clase

de nuevos ejemplos

Velocidad

Tiempo para construir el modelo
Tiempo para usar el modelo

Robustez

Manejo de valores faltantes y ruido

Escalabilidad

Eficiencia en grandes bases de datos

Facilidad de interpretación

Nivel de entendimiento provisto por el modelo

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Agenda
Aprendizaje Inductivo
Clasificación

Árboles de Decisión
Clasificador Bayesiano

Clustering

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Árboles de Decisión
Un árbol de decisión es una estructura de datos

definida recursivamente como:
Un nodo hoja que contiene una clase
Un nodo de decisión que contiene una comprobación

sobre algún atributo. Para cada resultado de esa
comprobación existe un subárbol hijo, con la misma
estructura descripta.

Ejemplo

El paciente
se siente bien

Si

Sano

No

El paciente
tiene dolor

No

Si

Temperatura
del paciente

Enfermo

<=37

Sano

>37

Enfermo

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

55

Ejemplo: Datos de entrenamiento

Ejemplo árbol de decisión

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Utilización del árbol
Directamente

Verificar el valor de un atributo de un ejemplo no

conocido con el árbol

Se sigue el camino desde la raíz a la hoja que posea la

etiqueta

Indirectamente

El árbol de decisión se convierte en reglas de

clasificación

Se crea una regla por cada camino de la raíz a las hojas
Las reglas IF-THEN son más fáciles de entender

Clasificación de nuevos ejemplos
Partir desde la raíz
Avanzar por los nodos de decisión hasta alcanzar una hoja
La clase del nuevo ejemplo es la clase que representa la

hoja.

Clase

Asociada

Nuevo Ejemplo

Atributo1=..
Atributo2=..

Clase = A

B

A

A

C

B

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

Equivalente en reglas
Si El paciente se siente bien = Si entonces

Clase = Sano

Sino

Si El paciente tiene dolor = No entonces

Si Temperatura del paciente <= 37 entonces

Clase = Sano

Sino (Temperatura del paciente > 37)

El paciente
se siente bien

Clase = Enfermo

Sino (El paciente tiene dolor = Si)

Clase = Enfermo

Si

Sano

No

El paciente
tiene dolor

No

Temperatura
del paciente

Si

Enfermo

<=37

Sano

>37

Enfermo

Equivalente en reglas
Si El paciente se siente bien = Si entonces

Clase = Sano

Si El paciente se siente bien = No and El paciente tiene

dolor = No and Temperatura del paciente <=37 entonces
Clase = Sano

Si El paciente se siente bien = No and El paciente tiene
dolor = No and Temperatura del paciente >37 entonces
Clase = Enfermo

Si El paciente se siente bien = No and El paciente tiene

dolor = Si entonces
Clase = Enfermo

Dr. Marcelo G. Armentano - ISISTAN - UNICEN

66

Construcción del árbol de decisión

Construcción del árbol de decisión

La generación de árbol básica de arr

Links de descarga

http://lwp-l.com/pdf5878

facebook

twitter

Comentarios de: Aprendizaje Inductivo - Clasificación y Clustering (0)

No hay comentarios

Comentar...


Nombre

Correo (no se visualiza en la web)

Valoración

Comentarios...

CerrarCerrar

CerrarCerrar

Codigo

Negrita

Subrayado

Tachado

Cursiva

Insertar enlace

Imagen externa

Emoticon

Tabular

Centrar

Titulo

Linea

Disminuir

Aumentar

Vista preliminar

Es necesario revisar y aceptar las políticas de privacidad

Acepto las políticas de privacidad

Wi-Fi Networks Design

Análisis E Implementación De Las Técnicas Anti-Forenses Sobre ZFS