Máster en Big Data y Análisis de Datos

Este es el programa del máster en Big Data y Análisis de datos de CICE:

Primera Unidad: Formación base para Big Data

  • POO: Java curso online.
  • Introducción a Unix

Segunda Unidad: Introducción a Programación orientada a Big Data en Python

  • Elementos básicos del lenguaje.
  • Numerical Python.
  • La librería Numpy. Arrays. Operaciones vectorizadas.
  • Funciones universales.
  • Entrada/salida.
  • Proceso de datos usando arrays.
  • Generación de números aleatorios

Tercera Unidad: La librería Pandas. Introducción a las estructuras en Pandas

  • Limpieza y transformación de datos. Tratamiento de datos perdidos.
  • Operaciones merge y join.
  • Estadística descriptiva en Pandas.
  • Grupos y operación de agregación.
  • Carga y almacenamiento de datos (Excel, csv, MySql, MongoDB, JSON, XML).
  • Matpltlib para la visualización de datos y Extracción de datos de la web (beautifulsoup, scrapy…).

Cuarta Unidad: Introducción a MongoDB

  • Revisión básica para el entendimiento del módulo.
  • Tipos de bases de datos (estructuradas y no-estructuradas).
  • Conversiones de las bases de datos relacionales a NoSQL.
  • MongoDB: Introducción y Tour

Quinta Unidad: MongoDB primeros pasos

  • MongoDB Shell. Operaciones CRUD (Create, Read, Update y Delete).
  • Cursores en MongoDB, uso y ventajas.
  • Cálculo de datos agregados: Aggregation Framework y MapReduce.
    Otras funciones: Count, Distinct y Group.
  • Casos prácticos dentro del mundo Big Data.

Sexta Unidad: Motores de almacenamiento en MongoDB e Índices

  • Motores de almacenamiento en memoria: MMAPv1. Y WiredTiger.
  • Motor MongoDB WiredTiger.
  • Primarios, Secundarios, Parciales: usos y sus ventajas.
  • Tiempo de vida de la información: TTL.

Séptima Unidad: Profiling y Utilidades de MongoDB

  • Perfiles del grado de escritura: Profiling.
  • Utilidades: Mongoexport, Mongoimport, Mongodump, Mongostore y otras.
  • Replica sets.
  • Write y Read concern.

Octava Unidad: Sharding, administración y seguridad. Interfaces gráficos (UI)

  • Sharding: distribución de información entre múltiples máquinas.
  • Administración y seguridad. interfaces gráficos: RoboMongo y Compass.
  • Orientación a la certificación MongoDB.

Novena Unidad: Apache Hadoop Introducción

  • Revisión básica para el entendimiento del módulo.
  • El problema de escalabilidad y su solución Hadoop.
  • Apache Hadoop: motivación, uso, distribuciones y conceptos básicos.
  • El Sistema de Ficheros Distribuido Hadoop (HDFS) y Map Reduce.

Décima Unidad: El sistema de almacenamiento de ficheros HDFS y MapReduce

  • HDFS: usos y ejercicios básicos.
  • El Flujo MapReduce y cómo operan los Cluster Hadoop.
  • MapReduce: API, usos y ejercicios básicos.
  • Realizando aplicaciones reales en batch con MapReduce con HDFS.
  • Aplicaciones reales en streaming con MapReduce con HDFS.
  • Unidad 11. Pruebas con MapReduce.
  • Programas Unit Testing de MapReduce.
  • Ejercicio práctico: testeo con junit.
  • Debug con MapReduce: Localjobrunner.
  • Ejercicio flujo MapReduce con localjobrunner.

Undécima Unidad: Ecosistema Hadoop en la distribución de Cloudera

  • Integración de Hadoop en un entorno de trabajo.
  • Herramientas del ecosistema Hadoop: Hive, Impala, Pig, Hbase, Sqoop, Oozie, Hue.
  • Ejercicios prácticos uso Hive y Sqoop en proyectos Big Data.
  • Ejecución flujo de trabajo con Oozie.
  • Apache Hadoop desde la perspectiva de administración.
  • Yarn y su uso utilización en las aplicaciones actuales.
  • Revisión configuración inicial del cluster Hadoop.
  • Configuración Hive, Pig, Impala. Clientes de Hadoop.
  • Administración en casos reales Big Data.

Duodécima Unidad: Cluster Hadoop

  • Yarn y mapreduce.
  • Arquitectura yarn.
  • Planificación de un cluster Hadoop.
  • Consideraciones hardware.
  • Instalación y configuración inicial.
  • Tipos de despliegue Hadoop.
  • Clientes Hadoop.
  • Configuración de un cluster.
  • Cluster en alta disponibilidad.
  • Mantenimiento de un cluster Hadoop.

Unidad 14. Introducción a la analítica avanzada con R y BigML

  • Revisión básica para el entendimiento del módulo.
  • Lenguaje R. Tipos de datos.
  • Estructuras de control y bucles.
  • Funciones y prácticas básicas.
  • Trabajando con datos: Data frames.
  • Análisis exploratorio.
  • Prácticas y usos actuales de R con datos.
  • Paquete para mostrar relaciones multi-evaluadas: Lattice.
  • Paquete gráfico enriquecido: GGPlot2.
  • Prácticas y usos actuales de R con datos.
  • Text Minning: Minería de datos sobre textos o documentos
    Shiny: publicando una aplicación en R.
  • Regresiones: lineal simple, múltiple y logística.
  • Algoritmos de K-Nearest Neighbors.
  • Prácticas de R avanzando.
  • Introducción a Machine Learning.
  • Aprendizaje supervisado: modelos basados en árboles.
  • Regresiones.
  • Aprendizaje no supervisado: agrupaciones.
  • Anomalías.
  • Asociaciones.
  • Evaluación y selección de modelos.
  • Orientación a certificación.
  • Bagging. Boosting. Support Vector Machines (SVM).
  • Sistemas de recomendación en la actualidad: planteamiento y realización.
  • Kaggle: portal de desarrollo por competencias

Unidad 15. Lenguaje de programación Scala y orientación a Big Data

  • Introducción a Scala. Trabajando con datos, expresiones y condicionales.
  • Funciones y Colecciones.
  • Programación orientada a objetos básica (Object Oriented Programming).
  • Prácticas básicas con Scala.
  • Tipos de datos Scala y estadística básica aplicada a Scala.
  • Análisis de datos e ingeniería de datos con Scala.
  • Modelos analíticos con Scala.
  • Pipelines y Grid search.
  • Básico: Spark con Scala.
  • Trabajando con Estructuras de (clave, valor).
  • Particiones y Mezclas.
  • DataFrames, Datasets y SQL APIs.
  • Introducción: Manejo de datos (clave, valor).
  • Scala ejercicios de consolidación.
  • Scala ejercicios orientados al uso actual en Big Data.

Decimosexta Unidad: Apache Spark

  • Revisión básica para el entendimiento del módulo.
  • Introducción a Apache Spark. Spark vs MapReduce vs Tez.
  • Beneficios de Spark.
  • Spark vs Mapreduce.
  • Conceptos básicos, RDDs, transformaciones y acciones.
  • Creación de Resilient Distributed Dataset (RDD): estructura de datos básica Spark.
  • Pair RDD, Pair RDD con datos complejos y otras operaciones con pair RDD.
  • Linaje de un RDD.
  • Spark vs mapreduce.
  • Desarrollo de aplicaciones con Spark.

Decimoséptima Unidad: Spark en un Cluster

  • HDFS con Spark. Opciones de despliegue en Spark.
  • Programación paralela en Spark.
  • Particionamiento, operaciones con particiones.
  • Cacheo y persistencia

Unidad 18. Apache Spark Streaming

  • Introducción a Spark Streaming o en transmisión continua
    Casos de uso.
  • Apache Storm vs Spark Streaming.
  • Desarrollo de aplicaciones realtime con Spark Streaming

Unidad 19. Mejoras de rendimiento

  • Variables broadcast.
  • Acumuladores.
  • Particiones y tamaño de particiones
    Spark SQL.
  • Spark ML y uso en Machine Learning.

Proyecto Final

  • Entrega de todos y cada uno de los proyectos que se le exija por parte del profesorado en forma y tiempo adecuado.

Volver al Listado de Másteres de Big Data