Programa del Curso

  • Introducción
    • Hadoop Historia, Conceptos
    • Ecosistema
    • Distribuciones
    • Arquitectura de alto nivel
    • Hadoop Mitos
    • Hadoop Desafíos (hardware / software)
    • Labs: discute tus Big Data proyectos y problemas
  • Planificación e instalación
    • Selección de software, Hadoop distribuciones
    • Dimensionamiento del clúster, planificación del crecimiento
    • Selección de hardware y red
    • Topología de bastidor
    • Instalación
    • Multi-tenencia
    • Estructura de directorios, registros
    • Evaluación comparativa
    • Laboratorios: instalación de clústeres, ejecución de pruebas comparativas de rendimiento
  • Operaciones de HDFS
    • Conceptos (escalado horizontal, replicación, localidad de datos, reconocimiento de racks)
    • Nodos y demonios (NameNode, NameNode secundario, NameNode en espera de alta disponibilidad, DataNode)
    • Supervisión de la salud
    • Administración basada en explorador y línea de comandos
    • Adición de almacenamiento, sustitución de unidades defectuosas
    • Labs: familiarizarse con las líneas de comandos de HDFS
  • Ingesta de datos
    • Canal para la ingesta de registros y otros datos en HDFS
    • Sqoop para importar desde SQL bases de datos a HDFS, así como exportar de nuevo a SQL
    • Hadoop Almacenamiento de datos con Hive
    • Copia de datos entre clústeres (distcp)
    • Uso de S3 como complemento de HDFS
    • Prácticas recomendadas y arquitecturas de ingesta de datos
    • Labs: configuración y uso de Flume, lo mismo para Sqoop
  • Operaciones y administración de MapReduce
    • Computación paralela antes de mapreduce: comparación de la administración de HPC con la de Hadoop
    • MapReduce las cargas de clúster
    • Nodos y demonios (JobTracker, TaskTracker)
    • Recorrido por la interfaz de usuario de MapReduce
    • Configuración de Mapreduce
    • Configuración del trabajo
    • Optimización de MapReduce
    • RM infalible: qué decirle a tus programadores
    • Labs: ejecución de ejemplos de MapReduce
  • YARN: nueva arquitectura y nuevas capacidades
    • Objetivos de diseño y arquitectura de implementación de YARN
    • Nuevos actores: ResourceManager, NodeManager, Application Master
    • Instalación de YARN
    • Programación de trabajos en YARN
    • Laboratorios: investigar la programación de trabajos
  • Temas avanzados
    • Monitoreo de hardware
    • Supervisión de clústeres
    • Agregar y eliminar servidores, actualizar Hadoop
    • Planificación de copias de seguridad, recuperación y continuidad del negocio
    • Flujos de trabajo de Oozie
    • Hadoop alta disponibilidad (HA)
    • Hadoop Federación
    • Protección del clúster con Kerberos
    • Laboratorios: configuración de la supervisión
  • Pistas opcionales
    • Cloudera Manager para la administración de clústeres, la supervisión y las tareas rutinarias; instalación, uso. En este track, todos los ejercicios y laboratorios se realizan dentro del entorno de distribución de Cloudera (CDH5)
    • Ambari para la administración de clústeres, la supervisión y las tareas rutinarias; instalación, uso. En esta pista, todos los ejercicios y laboratorios se realizan dentro del administrador de clústeres de Ambari y la plataforma de datos de Hortonworks (HDP 2.0)

Requerimientos

  • Cómodo con la administración básica del sistema Linux
  • Habilidades básicas de scripting

No se requieren conocimientos de Hadoop y Computación Distribuida, pero se introducirán y explicarán en el curso.

Entorno de laboratorio

Instalación cero: ¡No es necesario instalar el software Hadoop en las máquinas de los estudiantes! Se proporcionará un clúster de Hadoop en funcionamiento para los estudiantes.

Los estudiantes necesitarán lo siguiente

  • un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows se recomienda Utty )
  • un navegador para acceder al clúster. Recomendamos el navegador Firefox con la extensión FoxyProxy instalada
 21 Horas

Número de participantes


Precio por Participante​

Testimonios (4)

Próximos cursos

Categorías Relacionadas