¿Que es Big Data en 5 minutos?

Lessons

Share Exit Fullscreen Back to course

Data Engineer II & Big Data Hybrid-Cloud

Presentación del Programa Completo Data Engineer I y II
- Presentación Tématica del Programa de Data Engineer
- ¿Que es Big Data en 5 minutos?
MÓDULO 1: ETL / ETL Frameworks
- Sesión 1 - Completa en vivo
- Sesión 2 - Completo en Vivo
- Sesión 3 - Completo en Vivo
- ¿Diferencias entre ELT y ELT?
- Tipos de Framework ETL/ELT
- ¿Qué es la Suite de Pentaho Analytics?
- ¿Qué es Pentaho Data Integration?
- Diseñando nuestra primera transformación
- Diseñando nuestro primer Job.
- Soporte y conexiones a diversas fuentes de datos
- Trabajando con control de versiones Git
- Demostración de como utilizar el repositorio nativo basado en metadatos compartidos de la Suite de Pentaho
- Conociendo los steps o componentes de tipo transformación y job orientados al Big Data y Big Data Streaming
Orquestación Hybrid-Cloud
- Ingestando y transformando datos a un clúster on-premise a de Big Data de Cloudera (CDH)
- Ingestando y transformando datos a un clúster on-premise de Big Data de Hortonworks (HDP)
- Ingestando y transformando datos a un Datalake On-Cloud de Big Data en AWS
- Ingestando y transformando datos a un Datalake On-Cloud de Big Data en GCP
- Entendiendo el Landing Zone, Raw Zone,Refine Zone, Trusted Zone y Analytics Zone
- Perfilando la construcción de un DataWarehouse on-cloud en AWS
MÓDULO 2: Stream Processing con Kafka
- ¿Revisando la tecnología de Apache Kafka?
- Desplegando Clúster con 3 nodos de Kafka y 3 nodos de Zookeeper
- Definiendo y creando tópicos
- Monitoreando tramas de flujos de Streaming con herramientas de consumo de Streaming para Kafka
- Caso de Uso: Ingestando y transformando data en Streaming de un Banco
- PDI en el consumo de streaming desde un tópico de Kafka
- Produciendo datos desde PDI en un Tópico
STREAMING PROCESSING CON FLINK
- Caso de uso real: Procesamiento por Streaming con Apache Flink y publicación en formato RAW en tópico de Apache Kafka
- Procesamiento por Streaming con Flink, refinería de datos y transmisión a tópicos en Apache Kafka
- Consumiendo y transformando datos por Streaming con Pentaho Data Integration
- Apache Kafka, Apache Flink On-cloud, Caso de uso en AWS
- Llevando nuestro Pipeline a la nube en AWS
MÓDULO 3: Stream Processing con Elastic
- ¿Revisando el Stack tecnológico de Elastic?
- Desplegando Clúster con 3 nodos de Elastick Search, 1 Logstach, Beats y Kiabana
- Integrando Logstach + kafka + Elastic
- Creando índices para la gestión de datos geo- referenciados
- Caso de Uso: Ingestando y transformando data en Streaming
- PDI para la orquestación entre Apache Kafka y Elastic Stack
- Optimizando data pipeline
MÓDULO 4: Monitoreo de Data Pipelines
- Arquitectura de Supervisión
- Despliegue de Prometheus con Docker y Kubernetes en nuestro entorno on-premise
- Consultas con PromQL
- Despliegue de Grafana con Docker y Kubernetes en nuestro entorno on-premise
- Creación y gestión de alertas
- Monitoreando nuestro Data Pipeline
- Creación de gráficos con Grafana
- Monitoreo de Data Pipelines On-Cloud con AWS
- Monitoreo de Data Pipelines On-Cloud con Azure
- Monitoreo de Data Pipelines On-Cloud con GCP
MÓDULO 5: Procesamiento sobre Spark
- Python con Spark para PySpark
- Programación Funcional
- Dataframes para Datos Estructurados y Semi-Estructurados
- Transformaciones y Operaciones en Dataframes
- Creación de Funciones Personalizadas con UDFs
- UDFs con Multi-Parámetros
- Almacenamiento en Formatos Binarios de rápido Procesamiento: Parquet y Delta
- Procesamientos en Pasos Encadenados
- Procesamientos en Pasos Separados
- Liberación de Memoria con el Garbage Collector
MÓDULO 6: Jenkins | GitHub Actions
- Revisión de la gestión de repositorios y control de versión con Git
- Integración continua (CI) con Jenkins pipelines
- Entrega continua y despliegue continuo (CD) con Jenkins y Kubernetes
- ¿Qué es Github Action Workflow?
- Acciones de Github
- Runners en Github
- Trabajando con Github Actions y AWS
- Trabajando con Github Actions y Azure
- Trabajando con Github Actions y GCP
- Github y Pentaho Data Integration
Jenkins | GitLab Pipelines
- Fundamentos de Integración Continua con GitLab (CI)
- Flujos básico de tipo CI/CD con Gitlab CI
- Tópicos específicos y Tópicos de usuario
- YAML básicos
- Trabajando con Gitlab pipelines y AWS
- Trabajando con Gitlab pipelines y Azure
- Trabajando con Gitlab pipelines y GCP
MÓDULO 7: Identificación y Gestión de Acceso
- Mecanismos de identificación y gestión de acceso on-premise
- Mecanismos de identificación y gestión de acceso on-cloud con AWS
- Mecanismos de identificación y gestión de acceso on-cloud con Azure
- Mecanismos de identificación y gestión de acceso on-cloud con GCP
- Caso de USO I en AWS
- Caso de USO II en AWS
- Caso de USO I en Azure
- Caso de USO II en Azure
- Caso de USO I en GCP
- Caso de USO II en CP
MÓDULO 8: Proyecto Integrador Hybrid-Cloud
- Una capa de Data Scraping en tiempo real
- Una capa de Pipeline de Ingestión de datos en tiempo real
- Una capa de Pipeline de Ingestión de datos en Batch
- Una capa de Monitoreo del Pipeline completo