Como criar pipelines de dados em lote no Google Cloud

Overview

"Neste curso intermediário, você aprenderá a projetar, criar e otimizar pipelines de dados em lote robustos no Google Cloud. Além do tratamento básico de dados, você vai aprender sobre transformações em grande escala e orquestração eficiente de fluxos de trabalho, essenciais para a eficiência em Business Intelligence e relatórios importantes. Pratique o uso do Dataflow para Apache Beam e do Serverless para Apache Spark (Dataproc sem servidor) na implementação e resolva questões importantes em qualidade de dados, monitoramento e alertas, garantindo um pipeline confiável e excelência operacional. Recomendamos ter conhecimento básico de armazenamento em data warehouse, ETL/ELT, SQL, Python e conceitos do Google Cloud."

Syllabus

Quando escolher pipelines de dados em lote

Você vai conhecer o papel fundamental de um engenheiro de dados no desenvolvimento e na manutenção de pipelines de dados em lote, entender os principais componentes e o ciclo de vida desses mecanismos e analisar os desafios mais comuns no processamento de dados em lote. Também vai identificar os principais serviços do Google Cloud que ajudam a resolver essas dificuldades.

Projetar e criar pipelines de dados em lote

Você vai projetar pipelines de dados em lote escalonáveis para a ingestão e transformação de dados em grande volume. Também vai otimizar jobs em lote para ter economia e alta capacidade de processamento usando várias técnicas de gerenciamento de recursos e ajuste de desempenho.

Controlar a qualidade dos dados nos pipelines de dados em lote

Você vai desenvolver regras de validação de dados e lógica de limpeza para garantir a qualidade deles nos pipelines em lote. Também vai implementar estratégias para gerenciar a evolução do esquema e eliminar duplicações em grandes conjuntos de dados.

Orquestrar e monitorar pipelines de dados em lote

Você vai orquestrar fluxos de trabalho complexos de pipeline de dados em lote para agendamento eficiente e rastreamento de linhagem. Também vai implementar tratamento de erros, monitoramento e observabilidade robustos nos pipelines de dados em lote.