Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Google Cloud

Traitement des données sans serveur avec Dataflow : cours 2

Google Cloud via Coursera

Overview

Coursera Flash Sale
40% Off Coursera Plus for 3 Months!
Grab it
Dans ce deuxième volet de la série de cours sur Dataflow, nous allons nous intéresser de plus près au développement de pipelines à l'aide du SDK Beam. Nous allons commencer par passer en revue les concepts d'Apache Beam. Nous allons ensuite parler du traitement des données par flux à l'aide de fenêtres, de filigranes et de déclencheurs. Nous passerons ensuite aux options de sources et de récepteurs dans vos pipelines, aux schémas pour présenter vos données structurées, et nous verrons comment effectuer des transformations avec état à l'aide des API State et Timer. Nous aborderons ensuite les bonnes pratiques qui vous aideront à maximiser les performances de vos pipelines. Vers la fin du cours, nous présentons le langage SQL et les DataFrames pour représenter votre logique métier dans Beam, et nous expliquons comment développer des pipelines de manière itérative à l'aide des notebooks Beam.

Syllabus

  • Introduction
    • Ce module vous présente le cours et son plan.
  • Révision des concepts Beam
    • Découvrir les principaux concepts d'Apache Beam et comment les appliquer pour écrire vos propres pipelines de traitement des données
  • Fenêtres, filigranes et déclencheurs
    • Dans ce module, vous allez apprendre à traiter des données en flux continu avec Dataflow. Pour cela, vous devez maîtriser trois concepts principaux : comment regrouper les données dans des fenêtres, l'importance des filigranes pour savoir quand la fenêtre est prête à produire des résultats, et comment contrôler quand et combien de fois la fenêtre émettra des résultats.
  • Sources et récepteurs
    • Dans ce module, vous allez découvrir ce qui fait qu'une source ou un récepteur est considéré comme tel dans Dataflow. Le module présentera des exemples de TextIO, FileIO, BigQueryIO, PubsubIO, KafkaIO, BigtableIO, AvroIO et d'argument DoFn fractionnable. Le module présentera également certaines fonctionnalités utiles associées à chaque E/S.
  • Schémas
    • Ce module présente les schémas, qui permettent aux développeurs de représenter des données structurées dans leurs pipelines Beam.
  • État et minuteurs
    • Ce module aborde les états et les minuteurs, deux fonctionnalités puissantes que vous pouvez utiliser dans votre argument DoFn pour implémenter des transformations avec état.
  • Bonnes pratiques
    • Ce module aborde les bonnes pratiques et les modèles courants qui permettent de maximiser les performances de vos pipelines Dataflow.
  • Dataflow SQL et DataFrames
    • Ce module présente deux nouvelles API pour représenter votre logique métier dans Beam : SQL et DataFrames.
  • Notebooks Beam
    • Ce module présente les notebooks Beam, une interface permettant aux développeurs Python de se familiariser avec le SDK Beam et de développer leurs pipelines de manière itérative dans un environnement de notebook Jupyter.
  • Résumé
    • Ce module résume le cours.

Taught by

Google Cloud Training

Reviews

Start your review of Traitement des données sans serveur avec Dataflow : cours 2

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.