この中級コースでは、Google Cloud で堅牢なバッチデータ パイプラインを設計、構築、最適化する方法を学習します。基本的なデータ処理から一歩進んで、大規模なデータ変換と効率的なワークフロー オーケストレーションを確認します。この内容は、タイムリーなビジネス インテリジェンスと重要なレポートの作成に不可欠です。
実装に Apache Beam 用の Dataflow と Apache Spark 向け Serverless(Dataproc Serverless)を使用する実践的な演習を行い、パイプラインの信頼性の確保と効果的な運用を実現するために、データの品質、モニタリング、アラートに関する重要な考慮事項に対処します。データ ウェアハウジング、ETL / ELT、SQL、Python、Google Cloud のコンセプトに関する基本的な知識があることが推奨されます。
Overview
Syllabus
- バッチデータ パイプラインを選択すべき場合
- バッチデータ パイプラインの開発とメンテナンスにおけるデータ エンジニアの重要な役割を学び、そのコア コンポーネントとライフサイクルを理解し、バッチデータ処理における一般的な課題を分析します。また、これらの課題に対処する主要な Google Cloud サービスも特定します。
- バッチデータ パイプラインを設計、構築する
- 大量のデータの取り込みと変換に対応するスケーラブルなバッチデータ パイプラインを設計します。また、さまざまなリソース管理とパフォーマンス チューニングの手法を使用して、高スループットと費用対効果を実現できるようにバッチジョブを最適化します。
- バッチデータ パイプラインでデータ品質を管理する
- バッチ パイプライン内でデータ品質を確保するためのデータ検証ルールとクレンジング ロジックを開発します。また、スキーマ進化の管理と、大規模なデータセットのデータの重複除去を行うための戦略も実装します。
- バッチデータ パイプラインをオーケストレート、モニタリングする
- スケジュールとリネージのトラッキングを効率化するために、複雑なバッチデータ パイプライン ワークフローをオーケストレートします。また、バッチデータ パイプラインの堅牢なエラー処理、モニタリング、オブザーバビリティも実装します。
Taught by
Google Cloud Training