Overview
Coursera Flash Sale
40% Off Coursera Plus for 3 Months!
Grab it
"Neste curso intermediário, você aprenderá a projetar, criar e otimizar pipelines de dados em lote robustos no Google Cloud. Além do tratamento básico de dados, você vai aprender sobre transformações em grande escala e orquestração eficiente de fluxos de trabalho, essenciais para a eficiência em Business Intelligence e relatórios importantes.
Pratique o uso do Dataflow para Apache Beam e do Serverless para Apache Spark (Dataproc sem servidor) na implementação e resolva questões importantes em qualidade de dados, monitoramento e alertas, garantindo um pipeline confiável e excelência operacional. Recomendamos ter conhecimento básico de armazenamento em data warehouse, ETL/ELT, SQL, Python e conceitos do Google Cloud."
Syllabus
- Quando escolher pipelines de dados em lote
- Você vai conhecer o papel fundamental de um engenheiro de dados no desenvolvimento e na manutenção de pipelines de dados em lote, entender os principais componentes e o ciclo de vida desses mecanismos e analisar os desafios mais comuns no processamento de dados em lote. Também vai identificar os principais serviços do Google Cloud que ajudam a resolver essas dificuldades.
- Projetar e criar pipelines de dados em lote
- Você vai projetar pipelines de dados em lote escalonáveis para a ingestão e transformação de dados em grande volume. Também vai otimizar jobs em lote para ter economia e alta capacidade de processamento usando várias técnicas de gerenciamento de recursos e ajuste de desempenho.
- Controlar a qualidade dos dados nos pipelines de dados em lote
- Você vai desenvolver regras de validação de dados e lógica de limpeza para garantir a qualidade deles nos pipelines em lote. Também vai implementar estratégias para gerenciar a evolução do esquema e eliminar duplicações em grandes conjuntos de dados.
- Orquestrar e monitorar pipelines de dados em lote
- Você vai orquestrar fluxos de trabalho complexos de pipeline de dados em lote para agendamento eficiente e rastreamento de linhagem. Também vai implementar tratamento de erros, monitoramento e observabilidade robustos nos pipelines de dados em lote.
Taught by
Google Cloud Training