Overview

Google, IBM & Meta Certificates — All 10,000+ Courses at 40% Off

One annual plan covers every course and certificate on Coursera. 40% off for a limited time.

Dans ce deuxième volet de la série de cours sur Dataflow, nous allons nous intéresser de plus près au développement de pipelines à l'aide du SDK Beam. Nous allons commencer par passer en revue les concepts d'Apache Beam. Nous allons ensuite parler du traitement des données par flux à l'aide de fenêtres, de filigranes et de déclencheurs. Nous passerons ensuite aux options de sources et de récepteurs dans vos pipelines, aux schémas pour présenter vos données structurées, et nous verrons comment effectuer des transformations avec état à l'aide des API State et Timer. Nous aborderons ensuite les bonnes pratiques qui vous aideront à maximiser les performances de vos pipelines. Vers la fin du cours, nous présentons le langage SQL et les DataFrames pour représenter votre logique métier dans Beam, et nous expliquons comment développer des pipelines de manière itérative à l'aide des notebooks Beam.

Syllabus

Introduction

Ce module vous présente le cours et son plan.

Révision des concepts Beam

Découvrir les principaux concepts d'Apache Beam et comment les appliquer pour écrire vos propres pipelines de traitement des données

Fenêtres, filigranes et déclencheurs

Dans ce module, vous allez apprendre à traiter des données en flux continu avec Dataflow. Pour cela, vous devez maîtriser trois concepts principaux : comment regrouper les données dans des fenêtres, l'importance des filigranes pour savoir quand la fenêtre est prête à produire des résultats, et comment contrôler quand et combien de fois la fenêtre émettra des résultats.

Sources et récepteurs

Dans ce module, vous allez découvrir ce qui fait qu'une source ou un récepteur est considéré comme tel dans Dataflow. Le module présentera des exemples de TextIO, FileIO, BigQueryIO, PubsubIO, KafkaIO, BigtableIO, AvroIO et d'argument DoFn fractionnable. Le module présentera également certaines fonctionnalités utiles associées à chaque E/S.

Schémas

Ce module présente les schémas, qui permettent aux développeurs de représenter des données structurées dans leurs pipelines Beam.

État et minuteurs

Ce module aborde les états et les minuteurs, deux fonctionnalités puissantes que vous pouvez utiliser dans votre argument DoFn pour implémenter des transformations avec état.

Bonnes pratiques

Ce module aborde les bonnes pratiques et les modèles courants qui permettent de maximiser les performances de vos pipelines Dataflow.

Dataflow SQL et DataFrames

Ce module présente deux nouvelles API pour représenter votre logique métier dans Beam : SQL et DataFrames.

Notebooks Beam

Ce module présente les notebooks Beam, une interface permettant aux développeurs Python de se familiariser avec le SDK Beam et de développer leurs pipelines de manière itérative dans un environnement de notebook Jupyter.