-
Presentación del Programa Completo Data Engineer I y II
-
MÓDULO 1: ETL / ETL Frameworks
-
Sesión 1 - Completa en vivo
-
Sesión 2 - Completo en Vivo
-
Sesión 3 - Completo en Vivo
-
¿Diferencias entre ELT y ELT?
-
Tipos de Framework ETL/ELT
-
¿Qué es la Suite de Pentaho Analytics?
-
¿Qué es Pentaho Data Integration?
- Unirse a este curso para acceder a recursos
-
Diseñando nuestra primera transformación
-
Diseñando nuestro primer Job.
-
Soporte y conexiones a diversas fuentes de datos
-
Trabajando con control de versiones Git
-
Demostración de como utilizar el repositorio nativo basado en metadatos compartidos de la Suite de Pentaho
-
Conociendo los steps o componentes de tipo transformación y job orientados al Big Data y Big Data Streaming
-
-
Orquestación Hybrid-Cloud
-
Ingestando y transformando datos a un clúster on-premise a de Big Data de Cloudera (CDH)
-
Ingestando y transformando datos a un clúster on-premise de Big Data de Hortonworks (HDP)
-
Ingestando y transformando datos a un Datalake On-Cloud de Big Data en AWS
-
Ingestando y transformando datos a un Datalake On-Cloud de Big Data en GCP
-
Entendiendo el Landing Zone, Raw Zone,Refine Zone, Trusted Zone y Analytics Zone
-
Perfilando la construcción de un DataWarehouse on-cloud en AWS
-
-
MÓDULO 2: Stream Processing con Kafka
-
¿Revisando la tecnología de Apache Kafka?
- Unirse a este curso para acceder a recursos
-
Desplegando Clúster con 3 nodos de Kafka y 3 nodos de Zookeeper
-
Definiendo y creando tópicos
-
Monitoreando tramas de flujos de Streaming con herramientas de consumo de Streaming para Kafka
-
Caso de Uso: Ingestando y transformando data en Streaming de un Banco
-
PDI en el consumo de streaming desde un tópico de Kafka
-
Produciendo datos desde PDI en un Tópico
-
-
STREAMING PROCESSING CON FLINK
-
Caso de uso real: Procesamiento por Streaming con Apache Flink y publicación en formato RAW en tópico de Apache Kafka
-
Procesamiento por Streaming con Flink, refinería de datos y transmisión a tópicos en Apache Kafka
-
Consumiendo y transformando datos por Streaming con Pentaho Data Integration
-
Apache Kafka, Apache Flink On-cloud, Caso de uso en AWS
-
Llevando nuestro Pipeline a la nube en AWS
-
-
MÓDULO 3: Stream Processing con Elastic
-
¿Revisando el Stack tecnológico de Elastic?
-
Desplegando Clúster con 3 nodos de Elastick Search, 1 Logstach, Beats y Kiabana
-
Integrando Logstach + kafka + Elastic
-
Creando índices para la gestión de datos geo- referenciados
-
Caso de Uso: Ingestando y transformando data en Streaming
-
PDI para la orquestación entre Apache Kafka y Elastic Stack
-
Optimizando data pipeline
-
-
MÓDULO 4: Monitoreo de Data Pipelines
-
Arquitectura de Supervisión
-
Despliegue de Prometheus con Docker y Kubernetes en nuestro entorno on-premise
-
Consultas con PromQL
-
Despliegue de Grafana con Docker y Kubernetes en nuestro entorno on-premise
-
Creación y gestión de alertas
-
Monitoreando nuestro Data Pipeline
-
Creación de gráficos con Grafana
-
Monitoreo de Data Pipelines On-Cloud con AWS
-
Monitoreo de Data Pipelines On-Cloud con Azure
-
Monitoreo de Data Pipelines On-Cloud con GCP
-
-
MÓDULO 5: Procesamiento sobre Spark
-
Python con Spark para PySpark
-
Programación Funcional
-
Dataframes para Datos Estructurados y Semi-Estructurados
-
Transformaciones y Operaciones en Dataframes
-
Creación de Funciones Personalizadas con UDFs
-
UDFs con Multi-Parámetros
-
Almacenamiento en Formatos Binarios de rápido Procesamiento: Parquet y Delta
-
Procesamientos en Pasos Encadenados
-
Procesamientos en Pasos Separados
-
Liberación de Memoria con el Garbage Collector
-
-
MÓDULO 6: Jenkins | GitHub Actions
-
Revisión de la gestión de repositorios y control de versión con Git
-
Integración continua (CI) con Jenkins pipelines
-
Entrega continua y despliegue continuo (CD) con Jenkins y Kubernetes
-
¿Qué es Github Action Workflow?
-
Acciones de Github
-
Runners en Github
-
Trabajando con Github Actions y AWS
-
Trabajando con Github Actions y Azure
-
Trabajando con Github Actions y GCP
-
Github y Pentaho Data Integration
-
-
Jenkins | GitLab Pipelines
-
Fundamentos de Integración Continua con GitLab (CI)
-
Flujos básico de tipo CI/CD con Gitlab CI
-
Tópicos específicos y Tópicos de usuario
-
YAML básicos
-
Trabajando con Gitlab pipelines y AWS
-
Trabajando con Gitlab pipelines y Azure
-
Trabajando con Gitlab pipelines y GCP
-
-
MÓDULO 7: Identificación y Gestión de Acceso
-
Mecanismos de identificación y gestión de acceso on-premise
-
Mecanismos de identificación y gestión de acceso on-cloud con AWS
-
Mecanismos de identificación y gestión de acceso on-cloud con Azure
-
Mecanismos de identificación y gestión de acceso on-cloud con GCP
-
Caso de USO I en AWS
-
Caso de USO II en AWS
-
Caso de USO I en Azure
-
Caso de USO II en Azure
-
Caso de USO I en GCP
-
Caso de USO II en CP
-
-
MÓDULO 8: Proyecto Integrador Hybrid-Cloud
-
Una capa de Data Scraping en tiempo real
-
Una capa de Pipeline de Ingestión de datos en tiempo real
-
Una capa de Pipeline de Ingestión de datos en Batch
-
Una capa de Monitoreo del Pipeline completo
-