Programa del Curso
- Introducción
- Hadoop Historia, Conceptos
- Ecosistema
- Distribuciones
- Arquitectura de alto nivel
- Hadoop Mitos
- Hadoop Desafíos (hardware / software)
- Labs: discute tus Big Data proyectos y problemas
- Planificación e instalación
- Selección de software, Hadoop distribuciones
- Dimensionamiento del clúster, planificación del crecimiento
- Selección de hardware y red
- Topología de bastidor
- Instalación
- Multi-tenencia
- Estructura de directorios, registros
- Evaluación comparativa
- Laboratorios: instalación de clústeres, ejecución de pruebas comparativas de rendimiento
- Operaciones de HDFS
- Conceptos (escalado horizontal, replicación, localidad de datos, reconocimiento de racks)
- Nodos y demonios (NameNode, NameNode secundario, NameNode en espera de alta disponibilidad, DataNode)
- Supervisión de la salud
- Administración basada en explorador y línea de comandos
- Adición de almacenamiento, sustitución de unidades defectuosas
- Labs: familiarizarse con las líneas de comandos de HDFS
- Ingesta de datos
- Canal para la ingesta de registros y otros datos en HDFS
- Sqoop para importar desde SQL bases de datos a HDFS, así como exportar de nuevo a SQL
- Hadoop Almacenamiento de datos con Hive
- Copia de datos entre clústeres (distcp)
- Uso de S3 como complemento de HDFS
- Prácticas recomendadas y arquitecturas de ingesta de datos
- Labs: configuración y uso de Flume, lo mismo para Sqoop
- Operaciones y administración de MapReduce
- Computación paralela antes de mapreduce: comparación de la administración de HPC con la de Hadoop
- MapReduce las cargas de clúster
- Nodos y demonios (JobTracker, TaskTracker)
- Recorrido por la interfaz de usuario de MapReduce
- Configuración de Mapreduce
- Configuración del trabajo
- Optimización de MapReduce
- RM infalible: qué decirle a tus programadores
- Labs: ejecución de ejemplos de MapReduce
- YARN: nueva arquitectura y nuevas capacidades
- Objetivos de diseño y arquitectura de implementación de YARN
- Nuevos actores: ResourceManager, NodeManager, Application Master
- Instalación de YARN
- Programación de trabajos en YARN
- Laboratorios: investigar la programación de trabajos
- Temas avanzados
- Monitoreo de hardware
- Supervisión de clústeres
- Agregar y eliminar servidores, actualizar Hadoop
- Planificación de copias de seguridad, recuperación y continuidad del negocio
- Flujos de trabajo de Oozie
- Hadoop alta disponibilidad (HA)
- Hadoop Federación
- Protección del clúster con Kerberos
- Laboratorios: configuración de la supervisión
- Pistas opcionales
- Cloudera Manager para la administración de clústeres, la supervisión y las tareas rutinarias; instalación, uso. En este track, todos los ejercicios y laboratorios se realizan dentro del entorno de distribución de Cloudera (CDH5)
- Ambari para la administración de clústeres, la supervisión y las tareas rutinarias; instalación, uso. En esta pista, todos los ejercicios y laboratorios se realizan dentro del administrador de clústeres de Ambari y la plataforma de datos de Hortonworks (HDP 2.0)
Requerimientos
- Cómodo con la administración básica del sistema Linux
- Habilidades básicas de scripting
No se requieren conocimientos de Hadoop y Computación Distribuida, pero se introducirán y explicarán en el curso.
Entorno de laboratorio
Instalación cero: ¡No es necesario instalar el software Hadoop en las máquinas de los estudiantes! Se proporcionará un clúster de Hadoop en funcionamiento para los estudiantes.
Los estudiantes necesitarán lo siguiente
- un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows se recomienda Utty )
- un navegador para acceder al clúster. Recomendamos el navegador Firefox con la extensión FoxyProxy instalada
Testimonios (4)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Curso - Big Data Analytics in Health
Liked very much the interactive way of learning.
Luigi Loiacono
Curso - Data Analysis with Hive/HiveQL
I mostly liked the trainer giving real live Examples.