Publicado el 1 de Mayo del 2018
1.030 visualizaciones desde el 1 de Mayo del 2018
388,3 KB
41 paginas
Creado hace 10a (13/08/2014)
Primera Clase: Generalidades
Aprendizaje Automático sobre
Grandes Volúmenes de Datos
Clase 1 - 11 de Agosto 2014
Pablo Ariel Duboue, PhD
Universidad Nacional de Córdoba,
Facultad de Matemática, Astronomía y Física
© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase: Generalidades
Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje
Qué es el aprendizaje automático sobre grandes volúmenes
de datos
Aprendizaje Automático: un nuevo paradigma de programación
Esta materia: cuando los datos y modelos no entran en RAM /
disco de una sola máquina
Importante para América latina porque no hay muchas
máquinas / recursos
© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase: Generalidades
Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje
A quiénes está dirigida esta materia
Estudiantes avanzados de carreras de grado
Estudiantes de posgrado
Profesionales del campo
Prerequisitos:
Conocimientos de programación
Álgebra (particularmente álgebra matricial).
Probabilidad y Estadística
Redes y Sistemas Distribuídos (o similar, al menos Sistemas
Operativos).
© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase: Generalidades
Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje
Estructura del curso
Tres partes:
1 Aprendizaje Automático (teórico)
2 Computo Distribuido (teórico)
3 Práctica (mahout/hadoop)
© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase: Generalidades
Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje
Parte I
Modelos, Ingeniería de Features.
Clasicación
Árboles de decisión
Regresión logística
SVMs
Clustering
kMeans
Clustering estadístico
Recomendación
© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase: Generalidades
Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje
Parte II
Conceptos de Cómputo Distribuido
Map/Reduce
Teorema CAP
Operaciones Matriciales Distribuidas
Gradiente
Búsqueda distribuida
Algoritmos actualizables
Colas, shared memory
Paralelizando algoritmos de Aprendizaje Automático
© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase: Generalidades
Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje
Parte III
Implantación
Hadoop
Map
Reduce
Mahout
Recomendación
Clustering
Clasicación
ActiveMQ e Híbridos
Casos de estudio
© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase: Generalidades
Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje
Casos de estudio
Delicado equilibrio entre lo factible y lo útil
Datos disponibles
Problemas interesantes
Clasicación: nombres para métodos compilados
(http://keywords4bytecodes.org)
Recomendación: paquetes para Debian
Clustering: identicación de páginas co-editadas en Wikipedia
© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase: Generalidades
Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje
Evaluación
Estudiantes presenciales
Prácticos
Parcial
Proyecto / monografía
Oyentes / estudiantes remotos
Multiple opción en línea
Proyecto
Ambos: competencia kaggle in class en trámite
© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase: Generalidades
Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje
Acerca del docente
Licenciado en Computación UNC-FaMAF
Doctorado Indirect Supervised Learning of Strategic
Generation Logic
Defendido Enero 2005, Columbia University, NYC
IBM Research (2005-2010)
Sistema DeepQA Watson (Jeopardy! Grand Challenge)
Systems team
Subsistema de aprendizaje automático (A framework for
merging and ranking of answers in DeepQA, IBM Journal of
R&D)
Consultoria
LinkedIn / FB / Legal / Inmobiliario / Soporte técnico
Software Libre
Thoughtland (http://thoughtland.duboue.net)
.© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase: Generalidades
Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje
Aprendizaje Automático
¾Nuevo paradigma de programación?
La vuelta al concepto de Soft Computing de los años
1980-1990
© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase: Generalidades
Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje
Algoritmos con error intrínseco
¾Qué hacer con un programa que falla aún habiendo sido
programado correctamente?
No todos los problemas pueden ser abordados vía Aprendizaje
Automático
Incluir el error dentro del modelo de uso
© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase: Generalidades
Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje
Datos
Limpieza de datos es fundamental
La tarea que más trabajo lleva en una implantación de
Aprendizaje Automático
Hay una diferencia innita entre "tenemos datos" y "estos
datos son útiles y listos para hacer Aprendizaje Automático"
© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase: Generalidades
Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje
Aprendizaje Automático como compilación
El Aprendizaje Automático puede ser parte de un sistema de
compilación por lotes (build system)
Sin embargo, las necesidades de cómputo de un build system
son muy inferiores a las de un sistema de Aprendizaje
Automático
Los detalles de ingeniería de software relacionados con la
implantación de sistemas de Aprendizaje Automático son
claves y muchas veces dejados de lado
© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase: Generalidades
Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje
Algoritmos vs. teoría
A medida que el campo va pasando de investigadores a
profesionales, el enfoque cambia de ventajas teóricas a
practicas
Popularización de sistemas híbridos
Ingeniería de features
No-free lunch theorem
© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase: Generalidades
Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje
Clasicación
El Aprendizaje Automático sin calicar
Aprender lo que uno ya sabe
Tratar de aprender una función f (x1, . . . , xn) → y donde
xi son las caracterísita de aprendizaje (features) de entrada
y es la clase objetivo
La clave es extrapolación, queremos que la función generalize
a entradas nunca vistas.
Interpolación lineal es en sí una forma de hacer Aprendizaje
Automático supervisado.
© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase: Generalidades
Generalidades de la Materia
Generalidades del Aprendizaje Automático
Clasicación, Sistemas de Recomendación y Aprendizaje Sin Supervisación
Ciclo del Aprendizaje Automático
Grandes volúmenes de datos
Características (features) para el Aprendizaje
Una visión como desarrolladores
Entrenamiento/Estimación/compilación:
Entrada: vectores de features, incluyendo la clase objetivo
Salida: un modelo entrenado
Ejecución/Predicción/interpretado:
Entrada: vectores de features, sin la clase objetivo, más el
modelo entrenado
Salida: la clase objetivo predicha
© 2014 Pablo Duboue, bajo licencia CC-BY-SA
BDML-clase1-11/08
Primera Clase:
Comentarios de: Aprendizaje Automático sobre Grandes Volúmenes de Datos - Clase 1 (0)
No hay comentarios