Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Google Cloud

Créer des pipelines de données en batch sur Google Cloud

Google Cloud via Coursera

Overview

Coursera Flash Sale
40% Off Coursera Plus for 3 Months!
Grab it
Dans ce cours de niveau intermédiaire, vous apprendrez à concevoir, créer et optimiser des pipelines de données en batch robustes sur Google Cloud. Au-delà des bases de la gestion des données, vous explorerez les transformations de données à grande échelle et l'orchestration efficace des workflows, essentielles pour l'informatique décisionnelle et les rapports critiques. Vous vous entraînerez à utiliser Dataflow pour Apache Beam et Serverless pour Apache Spark (Dataproc Serverless) pour l'implémentation, et vous aborderez des considérations importantes concernant la qualité des données, la surveillance et les alertes pour assurer la fiabilité des pipelines et l'excellence opérationnelle. Il est recommandé d'avoir des connaissances de base sur l'entreposage de données, les processus ETL/ELT, SQL, Python et les concepts de Google Cloud.

Syllabus

  • Quand choisir les pipelines de données en batch
    • Vous découvrirez le rôle essentiel de l'ingénieur de données dans le développement et la maintenance de pipelines de données en batch, comprendrez leurs composants de base et leur cycle de vie, et analyserez les difficultés courantes liées au traitement des données par lot. Vous identifierez également les principaux services Google Cloud qui permettent de relever ces défis.
  • Concevoir et créer des pipelines de données en batch
    • Vous allez concevoir des pipelines de données en batch évolutifs pour l'ingestion et la transformation de grands volumes de données. Vous apprendrez également à optimiser les jobs par lot pour obtenir un débit élevé et une meilleure rentabilité à l'aide de diverses techniques de gestion des ressources et d'optimisation des performances.
  • Contrôler la qualité des données dans les pipelines de données en batch
    • Vous allez développer des règles de validation des données et une logique de nettoyage pour assurer la qualité des données dans les pipelines en batch. Vous implémenterez également des stratégies pour gérer l'évolution des schémas et dédupliquer les données dans de grands ensembles de données.
  • Orchestrer et surveiller des pipelines de données en batch
    • Vous orchestrerez des workflows de pipeline de données en batch complexes pour planifier de manière efficace et suivre la traçabilité. Vous implémenterez également une gestion des exceptions, une surveillance et une observabilité robustes pour les pipelines de données en batch.

Taught by

Google Cloud Training

Reviews

Start your review of Créer des pipelines de données en batch sur Google Cloud

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.