Descripción
Inicios Próximos:
Aún no tenemos inicios de este curso |
Objetivos:
Después de completar este curso, los estudiantes podrán:
- Implementar clusters HDInsight.
- Autorizar a los usuarios a acceder a los recursos.
- CargaR datos en HDInsight.
- Solución de problemas de HDInsight.
- Implementar soluciones por lotes.
- Diseñar soluciones ETL por lotes para Big Data con Spark
- Analizar datos con Spark SQL.
- Analizar datos con Hive y Phoenix.
- Describir Stream Analytics.
- Implementar Spark Streaming usando la API DStream.
- Desarrollar soluciones de procesamiento en tiempo real de Big Data con Apache Storm.
- Desarrollar soluciones de compilación que usan Kafka y HBase.
Audiencia:
Las audiencias principales para este curso son: ingenieros de datos, arquitectos de datos, científicos de datos y desarrolladores de datos que planean implementar flujos de trabajo de ingeniería de datos grandes en HDInsight.
Prerrequisitos:
Además de su experiencia profesional, los estudiantes que asisten a este curso deben tener:
- Experiencia de programación con R y familiaridad con paquetes R comunes
- Conocimiento de métodos estadísticos comunes y mejores prácticas de análisis de datos.
- Conocimiento básico del sistema operativo Microsoft Windows y su funcionalidad principal.
- Conocimiento de trabajo de bases de datos relacionales.
Certificación:
Este curso lo prepara para el examen:70-775: Performing Data Engineering on Microsoft HD Insight. Este examen es requisito para la certificación: MCSE: Data Management and Analytics
Contenido:
1. Módulo 1: Introducción a HDInsight
1.1 ¿Qué es Big Data?
1.2 Introducción a Hadoop
1.3 Trabajar con la función MapReduce
1.4 Presentar HDInsight
1.5 Laboratorio: Trabajando con HDInsight
1.5.1 Proporcionar un clúster HDInsight y ejecute trabajos de MapReduce
2 Módulo 2: Implementación de clústers de HDInsight
2.1 Identificar de tipos de clúster HDInsight
2.2 Administrar clústeres de HDInsight utilizando el portal de Azure
2.3 Administrar clústeres HDInsight utilizando Azure PowerShell
2.4 Laboratorio: administración de clusters de HDInsight con Azure Portal
2.4.1 Crear un clúster HDInsight que use el almacenamiento de Data Lake Store
2.4.2 Personalizar HDInsight utilizando acciones de script
2.4.3 Eliminar un clúster HDInsight
3 Módulo 3: Autorización de acceso de los usuarios a los recursos
3.1 Cúmulos agrupados sin dominio
3.2 Configuración de clusters HDInsight unidos a un dominio
3.3 Administrar clústeres de HDInsight unidos a un dominio
3.4 Laboratorio: Autorizar a los usuarios a acceder a los recursos
3.4.1 Preparar el entorno de laboratorio
3.4.2 Administrar un clúster sin dominio agregado
4 Módulo 4: Carga de datos en HDInsight
4.1 Almacenamiento de datos para el procesamiento de HDInsight
4.2 Usar herramientas de carga de datos
4.3 Maximizar el valor de los datos almacenados
4.4 Laboratorio: C arga de datos en su cuenta de Azure
4.4.1 Cargar datos para usar con HDInsight
5 Módulo 5: Solución de problemas de HDInsight
5.1 Analizar registros de HDInsight
5.2 Registros de YARN
5.3 Pila de deposito
5.4 Suite de gestión de operaciones
5.5 Laboratorio: solución de problemas HDInsight
5.5.1 Analizar registros de HDInsight
5.5.2 Analizar los registros de YARN
5.5.3 Supervisar los recursos con Operations Management Suite
6 Módulo 6: Implementación de soluciones por lotes
6.1 Apache Hive storage
6.2 Consultas de datos de HDInsight con Hive and Pig
6.3 Operationalize HDInsight
6.4 Laboratorio: Implementar soluciones por lotes
6.4.1 Implemente el clúster HDInsight y el almacenamiento de datos
6.4.2 Usar transferencias de datos con clusters HDInsight
6.4.3 Consultar datos de clúster de HDInsight
7 Módulo 7: Diseño de soluciones ETL por lotes para Big Data con Spark
7.1 ¿Qué es Spark?
7.2 ETL con chispa
7.3 Rendimiento de chispa
7.4 Laboratorio: Diseñe soluciones ETL por lotes para big data con Spark.
7.4.1 Crear un clúster HDInsight con acceso a la tienda Data Lake
7.4.2 Use el clúster HDInsight Spark para analizar datos en Data Lake Store
7.5 Analizar los registros del sitio web utilizando una biblioteca personalizada con el clúster Apache Spark en HDInsight
7.5.1 Administrar recursos para el clúster Apache Spark en Azure HDInsight
8 Módulo 8: Analizar datos con Spark SQL
8.1 Implementar consultas iterativas e interactivas
8.2 Realizar análisis de datos exploratorios
8.3 Laboratorio: Realizar análisis de datos exploratorios mediante el uso de consultas iterativas e interactivas
8.3.1 Cree una aplicación de aprendizaje automático
8.3.2 Utilice zeppelin para el análisis interactivo de datos
8.3.3 Ver y administrar sesiones de Spark usando Livy
9 Módulo 9: Analice datos con Hive y Phoenix
9.1 Implementar consultas interactivas para big data con colmena interactiva.
9.2 Realizar análisis de datos exploratorios mediante el uso de Hive
9.3 Realice un procesamiento interactivo utilizando Apache Phoenix
9.4 Laboratorio: Analizar datos con Hive y Phoenix
9.4.1 Implementar consultas interactivas para big data con Hive interactiva
9.4.2 Realizar análisis de datos exploratorios mediante el uso de Hive
9.4.3 Realice un procesamiento interactivo utilizando Apache Phoenix
10 Módulo 10: Análisis de secuencias
10.1 Análisis de flujo
10.2 Procesar datos de transmisión desde análisis de transmisión
10.3 Administrar trabajos de análisis de flujo
10.4 Laboratorio: Implementar Análisis de secuencias
10.4.1 Procesar datos de transmisión con análisis de transmisión
10.4.2 Administrar trabajos de análisis de flujo
11 Módulo 11: Implementación de Streaming Solutions con Kafka y HBase
11.1 Creación e implementación de un clúster de Kafka
11.2 Publicación, consumo y procesamiento de datos utilizando el clúster de Kafka
11.3 Usando HBase para almacenar y consultar datos
11.4 Laboratorio: implementación de soluciones de transmisión con Kafka y HBase
11.4.1 Crear una red virtual y una puerta de enlace
11.4.2 Crear un grupo de tormenta para Kafka
11.4.3 Crear un productor de Kafka
11.4.4 Crear una topología de cliente de procesador de transmisión
11.4.5 Crear un panel de Power BI y un conjunto de datos de transmisión
11.4.6 Crear un cluster HBase
11.4.7 Crea un procesador de transmisión para escribir a HBase
12 Módulo 12: Desarrolle soluciones de procesamiento en tiempo real de big data con Apache Storm
12.1 Persistir datos a largo plazo
12.2 Transmitir datos con Tormenta
12.3 Crear topologías de tormenta
12.4 Configurar Apache Storm
12.5 Laboratorio: Desarrollo de soluciones de procesamiento de big data en tiempo real con Apache Storm
12.5.1 Transmitir datos con Storm
12.5.2 Crear topologías de Storm
13 Módulo 13: Crear aplicaciones de Spark Streaming
13.1 Trabajo con Spark Streaming
13.2 Creación de aplicaciones Spark Structured Streaming
13.3 Persistencia y visualización
13.4 Laboratorio: Creación de una aplicación Spark Streaming
13.4.1 Instalar el software requerido
13.4.2 Construir la Infraestructura Azure
13.4.3 Construir un oleoducto Spark Streaming
Costos:
Este costo incluye: Material de estudio, el uso de una computadora por persona, certificados, refrigerios e impuestos de ley.
Reviews
There are no reviews yet, would you like to submit yours?