Publicado el 27 de Agosto del 2017
917 visualizaciones desde el 27 de Agosto del 2017
1,3 MB
60 paginas
Creado hace 13a (10/06/2011)
MINERIA DE DATOS Y
Descubrimiento del Conocimiento
UNA APLICACIÓN EN DATOS AGROPECUARIOS
INTA EEA Corrientes
Maximiliano Silva
La información
• Herramienta estratégica
para el desarrollo de:
– Sociedad de la
información.
– Economía cuya base
es el conocimiento.
Problemática
• Incremento en dos sentidos en
Bases de Datos:
– Número N de registros u objetos.
– Número D de campos u atributos
por objeto.
• Crecimiento BD (tamaño y
número)
– Supera a las habilidades humanas
para analizar.
– Necesidad y oportunidad de
extraer conocimiento.
Descubrimiento de Conocimiento en
Bases de Datos (KDD)
• Descubrimiento del conocimiento
en Base de Datos :
– KDD:
Knowledge
Database. 1989.
Discovery
in
Estadística
Artificial / Machine
Inteligencia
Learning
• El método tradicional de convertir
datos en conocimiento:
– análisis e interpretación manual.
– lento, costoso y altamente subjetivo .
– volúmenes
crecen
datos
de
exponencialmente.
Data
Mining
Informática
Bases de Datos
KDD
• “El proceso no trivial de identificar patrones
válidos, nuevos, potencialmente útiles y en
ultima instancia comprensible en los datos”
Usama Fayyad 1996
Minería de Datos (DM)
• Minería de Datos: Data Minig – DM.
• Es la aplicación de algoritmos específicos para
extraer patrones desde los datos
KDD: Pasos adicionales
• Selección
• Limpieza .
• Reducción.
• Interpretación.
• Uso del conocimiento.
Aplicaciones del Data Mining
• Aspectos climatológicos: predicción de tormentas,
etc.
• Medicina: encontrar
la probabilidad de una
respuesta satisfactoria a un tratamiento médico.
• Mercadotécnia: identificar clientes susceptibles de
responder a ofertas de productos y servicios por
correo, fidelidad de clientes, afinidad de productos,
etc.
• Inversión en casas de bolsa y banca: análisis de
clientes, aprobación de prestamos, determinación
de montos de crédito.
• Detección de fraudes y comportamientos inusuales:
telefónicos, seguros, en tarjetas de crédito, evasión
fiscal, electricidad, etc.
• Análisis de canastas de mercado para mejorar la
organización de tiendas, segmentación de mercado
(clustering).
• Deporte
determinar
profesional:
puntos,
expulsiones/tarjetas que tiene cada jugador, tomar
mejores decisiones para siguientes temporadas.
Algoritmos de Minería de Datos
• Supervisados o predictivos:
– Dado un conjunto de variables predictoras, se desea
conocer el comportamiento de la variable a predecir.
Predicen el valor de un atributo de un conjunto de
datos, conocidos otros atributos.
– Una vez entrenado el modelo, sirve para realizar la
predicción de datos cuyo valor es desconocida.
Variables Predictoras
Variable a
predecir
Algoritmos de Minería de Datos
• No supervisados:
– Descubren patrones y tendencias en los datos, que
no poseen variable a predecir.
– Agrupar registros por similaridad.
– Descubrimiento de conocimiento: tomar acciones
y obtener un beneficio (científico o de negocio) de
ellas.
Árbol de Decisión
• Herramienta potentísima de clasificación.
Construyen un árbol del que se pueden
extraer reglas.
• Validaciones. Detectar elementos anómalos
en función de si encajan o no con las reglas
surgidas del árbol.
• Predecir el valor de un atributo con precisión,
encontrando correlaciones entre las variables
predictoras y la variable a predecir.
Ejemplo:
Redes neuronales
• Se basan en la analogía que existe en el
comportamiento y función del cerebro humano, en
particular del sistema nervioso.
– Aprende variando el peso sináptico.
Neurona
Biológica
Modelo
Matemático
de la Neurona
Biológica
Redes neuronales
• Aprenden a través del entrenamiento.
• Objetivo: balance entre
– Habilidad para responder correctamente en relación a la
el
patrones
usado
para
entrada
entrenamiento .
de
es
decir
– Habilidad de dar una respuesta (buena) razonable para la
entrada que es similar.
• El entrenamiento de la red por backpropagation implica tres
•
etapas:
Feedforward (red de alimentación hacia adelante) del
entrenamiento de patrones de entrada.
• Backpropagation del error asociado y
• El ajuste de los pesos.
Agrupamiento (Clustering)
• Es una técnica cuya idea básica es agrupar un
conjunto de observaciones en un número
dado de clusters o grupos. Este agrupamiento
se basa en la idea de distancia o similitud
entre las observaciones.
• La idea es que los elementos en un grupo sean
similares y en grupos diferentes tengan la
menor similitud posible.
Clustering
1000 clientes
en una BD
K-medias
• El algoritmo de las K-medias es un algoritmo
de partición. Básicamente este algoritmo
busca formar clusters (grupos) los cuales serán
representados por K objetos (centroides)
• La cantidad de K es un valor ingresado por el
usuario.
• Utiliza la noción de centroide.
• Cada uno de estos centroide es el valor medio
de los objetos que pertenecen a dicho grupo.
• Es un algoritmo iterativo por naturaleza.
Ejemplo
Distancia de Manhattan
D(p1,c1)= |2-3| + |4-5| = 2
D(p1,c2)= |2-6| + |4-2| = 6
Centroide 1
(c1)
Centroide 2
(c2)
Algoritmo Jerárquico
• El primer paso es calcular las distancias entre
todos los pares de objetos. Esto es lo mismo
que asumir que cada objeto constituye un
cluster: {C1, ...,CN}.
• Se buscan los dos clusters más cercanos
(Ci, Cj), éstos se juntan y constituyen uno solo
Cij.
• Se repite el paso 2 hasta que no quedan
pares de comparación.
• Para clasificar los elementos en clusters,
este algoritmo tiene dos variantes que
pueden ser:
– Acumulativos: se forman
grupos haciendo
clusters cada vez más grandes.
– Disminutivos: partiendo de un solo grupo se
separan los elementos en clusters cada vez
más pequeños.
• Entre
los
algoritmos
jerárquicos
siguientes
acumulativos destacan los
métodos:
– Método de las distancias mínimas: se busca
la mayor semejanza entre los elementos o
grupos más cercanos.
– Método de las distancias máximas: se calcula
la mínima distancia entre los elementos más
alejados.
– Método de las distancias medias: se calcula
la media de las distancias entre elementos.
Ejemplo con mínima distancia
Dendograma
Ejemplo de aplicación
• Utilización del algoritmo k- medias para
clasificación de sistemas productivos en una
provincia Argentina.
• Software utilizado: SPSS Clementine.
• Dimensiones del conjunto de datos:
– Más de 9000 registros.
– Más de 400 variables (atributos).
• Preprocesamiento y transformación de datos:
– Reducción de cantidad de variables a 40.
Aclaración:
los tipos de cultivos y bovinos son
nombrados en forma genérica debido a que el
resultado del proceso de Minería de Datos se
encuentra en etapa de interpretación y el mismo
no ha sido publicado.
Minería de Datos y Grid Computing
• Como los datos día a día crecen
en
las
dimensiones
computadoras
son muy
limitadas para ofrecer un buen rendimiento a
los procesos de minería.
descomunales,
convencionales
• Una posible solución es la Computación Grid,
la cual busca solucionar problemas que no
pueden ser resueltos en un tiempo razonable
con computadoras convencionales, mediante
el uso de diferentes procesadores
y/o
máquinas conectados a una red que se
finalmente se
distribuyen las
obtengan
y
eficientemente.
resultados más
rápida
tareas
y
Conclusión
• La Minería de datos es una herramienta que
permite convertir los datos almacenados en
información valiosa.
• Los campos
en los que se pueden aplicar
estas técnicas son extremadamente variados,
siempre que se disponga de un conjunto de
datos.
• En el
INTA, permitiría crear modelos para
predecir lluvias, rendimiento de cultivos, etc.
Bibliografía
In
in
• Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P.
From data mining to knowledge discovery: An
overview.
Knowledge
Discovery and Data Mining, U. Fayyad, G.
R.
Piatetsky-Shapiro,
Uthurusamy, Eds. AAAI/MIT Press, Cambridge,
Mass., 1996.
Advances
and
P.
Smyth,
• Apuntes proporcionados por la Cátedra.
Comentarios de: MINERIA DE DATOS Y Descubrimiento del Conocimiento (0)
No hay comentarios