Publicado el 19 de Abril del 2017
1.344 visualizaciones desde el 19 de Abril del 2017
232,5 KB
18 paginas
Creado hace 10a (18/11/2014)
Fundamentos y Aplicaciones Prácticas
del Descubrimiento de Conocimiento
en Bases de Datos
- Sesión 5 -
Juan Alfonso Lara Torralbo
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
1
Índice de contenidos
• Data Warehouse
• Modelo multidimensional
• Diagrama en estrella
• Copo de nieve
• Data marts
• OLAP
•
•
•
Implementación
Ejemplo de un almacén de datos
Actividad. Reproducción del ejemplo en MySQL
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
2
Data Warehouse (I)
• Las empresas e instituciones han almacenado
grandes cantidades de información a lo largo de
los años
• Información almacenada en estructuras que dan
soporte a la operativa diaria
• Deseo de extraer conocimiento de los datos
• Se necesita una estructura específica pensada
para el análisis Almacén de datos (Data
Warehouse)
3
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
Data Warehouse (II)
• Se parte de las fuentes de datos
• Se realiza un proceso de Extracción,
Transformación y Carga (ETL, Extraction,
Transformation and Load)
• El resultado final es el Data Warehouse
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
4
Data Warehouse (III)
• Proceso ETL:
•
•
•
•
•
Unificación de unidades de medida. Por ejemplo, cuando las fuentes trabajan
con unidades diferentes de monedas (€, $, etc.), de temperaturas (ºC y ºF),
etc.
Tratamiento de los valores erróneos en las fuentes. Por ejemplo, no tiene
sentido que el día de una fecha sea mayor a 31. En este caso, se pueden
obviar los valores erróneos y no volcarlos al almacén, o bien, intentar
recuperarlos.
Tratamiento de valores ausentes (missing values) en las fuentes. Un
procedimiento típico, en este caso, es estimar aquellos valores que, por alguna
causa, aparecen vacíos.
Tratamiento de valores atípicos en las fuentes. Los valores atípicos suelen ser
contraproducentes para el análisis, ya que pueden llegar a desvirtuar los
modelos resultantes del mismo.
Normalización de valores, para llevar los diferentes atributos a una misma
escala, evitando así, la preponderancia de unos atributos sobre otros.
5
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
Data Warehouse (IV)
• Posibles usos para un Data Warehouse:
• Sistemas de apoyo a la decisión.
• Herramientas de reporting (generación de
informes).
• Herramientas OLAP.
• Herramientas de minería de datos.
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
6
Modelo multidimensional (I)
• Antes de implementar, es necesario diseñar
• Hay que hacerse dos preguntas fundamentales:
• ¿Cuál es el elemento central del análisis que se
desea realizar?
• ¿Qué datos adicionales a dicho elemento resultarían
de interés para complementar y enriquecer dicho
análisis?
• La primera dará como resultado el HECHO
• La segunda, las DIMENSIONES
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
7
Modelo multidimensional (II)
• Ejemplo: Se desea construir un data warehouse para
analizar los datos relativos a los accesos de los
estudiantes a los recursos de una plataforma virtual de
aprendizaje
• ¿Cuál es el elemento central del análisis que se
desea realizar? ACCESO
• ¿Qué datos adicionales a dicho elemento
resultarían de interés para complementar y
enriquecer dicho análisis? RECURSO, AULA,
MOMENTO, ESTUDIANTE
8
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
Diagrama en estrella
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
9
Diagrama en copo de nieve
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
10
Data Marts
• En ocasiones, es posible querer analizar más
de un aspecto relativo a una empresa u
organización
• En otras palabras Varios HECHOS
• Cada hecho, tendrá sus dimensiones y
conformará su propio esquema (en estrella o en
copo de nieve)
• El almacén definitivo estará compuesto por la
unión de todos esos esquemas particulares, que
se denominan, Data Marts
11
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
OLAP (I)
• Además de para Data Mining, los almacenes
suelen ser utilizados para consultas (agregadas,
normalmente), en tiempo real (OLAP)
• El almacén se ve como un cubo n-dimensional,
donde el valor de cada celda es el valor del
hecho para esa combinación de valores de las
dimensiones
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
12
OLAP (II) - Consultas
• Slice: Consiste en tomar un subconjunto rectangular de un cubo
eligiendo un valor concreto para una de las dimensiones, dando
lugar a un nuevo cubo con una dimensión menos. Continuando con
el ejemplo anterior, se podrían tomar las ventas de cada producto
en cada instante, en una ciudad determinada, por ejemplo, Madrid.
• Dice: Consiste en crear un subcubo especificando valores
determinados en varias dimensiones. Por ejemplo, se podrían
tomar las ventas de productos ocurridas en 2012 y 2013, en las
ciudades con más de 300.000 habitantes.
• Drill-down: Consiste en navegar desde una vista con menor detalle
a otra con más nivel de detalle en las dimensiones. Por ejemplo, se
podría tener una visión de las ventas a nivel de cada año, y pasar a
otra visión a nivel de ventas por día.
13
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
OLAP (III) – Consultas (cont.)
• Roll-up: Esta operación consiste en agrupar los datos a lo largo de
una dimensión, con el objetivo de calcular totales u otros valores
estadísticos (media, moda, máximo, etc.). Por ejemplo, se podría
tener una vista con los totales de ventas de productos por ciudad,
agrupando todos los datos de la dimensión tiempo.
• Pivot: Consiste en rotar el cubo para obtener diferentes
perspectivas de los datos. Por ejemplo, el cubo de la figura 4, en el
que las dimensiones producto y ciudad son las más visibles, podría
rotarse para poder tener una vista más clara de la dimensión
tiempo.
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
14
Implementación (I)
• MOLAP (Multidimensional OLAP). Según este enfoque, los
data warehouse se implementan sobre una base de datos
multidimensional, en la que existe una única tabla con una
columna para cada hecho y con una columna para cada
dimensión del esquema a almacenar.
• ROLAP (Relational OLAP). En este caso, los data
warehouse se implementan sobre una base de datos
relacional.
• HOLAP (Hybrid OLAP). Esta alternativa utiliza una base de
datos multidimensional para almacenar alguna información,
mientras que el resto se almacena en una base de datos
relacional.
15
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
Implementación (II)
• Ejemplo ROLAP modelo enriquecido
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
16
Ejemplo
• Ver código fuente de ejemplo para el almacén de
acceso a recursos en un aula virtual
• Script de creación de tablas: Estudiante, Aula, Recurso,
Tiempo y Acceso
• Script de inserciones de ejemplo (en un entorno real,
esos datos sería recopilados de las fuentes de origen)
• Script con 3 consultas de interés de tipo OLAP
• Todo en SQL utilizando el SGBD MySQL
• En la siguiente actividad, veremos como se carga todo
17
en MySQL …
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
Actividad. Reproducción del
ejemplo en MySQL
El profesor irá implementando el
almacén de ejemplo en MySQL con los
scripts disponibles.
Los estudiantes irán siguiendo (en
grupos) al profesor, que revisará el
resultado final.
2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.
18
Comentarios de: Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 5 (0)
No hay comentarios