Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Data Engineering on AWS - A Streaming Data Pipeline Solution (Includes Labs) (简体中文)

Amazon Web Services and Amazon via AWS Skill Builder

Go to class Write review

Simplilearn

Become an AI & ML Engineer with Cal Poly EPaCE — IBM-Certified Training

Coursera

Learn AI, Data Science & Business — Earn Certificates That Get You Hired

Overview

AI, Data Science & Cloud Certificates from Google, IBM & Meta — 40% Off

One plan covers every Professional Certificate on Coursera. 40% off Coursera Plus Annual.

Unlock All Certificates

在本课程中，您将了解如何使用 AWS 服务构建流数据分析解决方案，这些服务包括 Amazon Kinesis、Amazon Data Firehose 和 Amazon Managed streaming for Apache Kafka (Amazon MSK)。Kinesis 是一项可大规模扩展且持久的实时数据流服务。Amazon MSK 提供一项安全且高度可用的完全托管式 Apache Kafka 服务。

您将了解 Kinesis 和 Amazon MSK 如何与 AWS Glue 和 AWS Lambda 等 AWS 服务集成。本课程将介绍数据分析管道的流数据摄取、流存储和流处理组件。您还将了解如何在 Kinesis 和 Amazon MSK 运营中应用安全性、性能和成本管理最佳实践。

课程分为不同的模块。学习模块将介绍一些新概念和可用于构建解决方案的 AWS 服务。实验模块提供深入的动手操作活动，并附有分步说明来指导您运用所学内容。

课程内容

互动内容、视频、知识考核、评估和动手实验

课程目标

识别客户面临的分析挑战，并描述以流数据架构为重点的相应 AWS 解决方案来应对该挑战。
描述适用于流应用程序的数据来源以及如何摄取这些数据。
确定流数据的短期和长期存储服务。
描述如何设计和实施实时数据处理解决方案。
了解如何提供流数据供终端用户使用。
描述如何使用 Amazon Kinesis、Amazon MSK 和 Amazon Redshift 优化流数据管道。
确定用于保护流数据管道的最佳实践。

培训对象

数据工程师
数据分析师
数据架构师
商业智能工程师

建议具备的技能

具备 2-3 年的数据工程经验
具备 1-2 年的 AWS 服务实践经验
已完成 AWS Cloud Practitioner Essentials 或同等课程
已完成 Fundamentals of Analytics on AWS Part 1 和 Part 2 课程
已完成 Data Engineering on AWS – Foundations 课程

课程大纲

模块 1：构建流数据管道解决方案（75 分钟）

本课程介绍如何识别、选择和配置适当的 AWS 服务，以构建流数据管道解决方案，从而实现虚构客户的业务目标。

简介
从流源摄取数据
存储流数据
处理数据
分析数据
最终评估
总结

模块 2：使用适用于 Apache Flink 的亚马逊托管服务进行流分析（实验）（45 分钟）

本实验是一项提供分步说明的动手操作活动，通过摄取点击流数据，并使用存储在 Amazon Simple Storage Service (Amazon S3) 中的目录数据扩充这些点击流数据，从而构建流处理管道。您将对已扩充的数据执行分析，以实时了解每个类别的销售额并将输出可视化。

实验概览
任务 1：设置 Zeppelin Notebook 环境
任务 2：连接到 Amazon EC2 生产者并启动点击流生成器
任务 3：导入 Zeppelin Notebook
任务 4：使用 Zeppelin Notebook 在 Managed Apache Flink Studio 中进行分析开发
任务 5：了解 AWS Glue 数据目录中的内存表创建
总结

模块 3：优化和保护流数据管道解决方案（45 分钟）

本课程介绍如何为虚构客户配置流数据管道解决方案，以提高效率、控制成本、保护数据安全并管理基础设施。

优化
安全和监管
最终评估
总结

模块 4：介绍 Amazon Managed Streaming for Apache Kafka 中的访问控制（实验）（75 分钟）

本实验是一项提供分步说明的动手操作活动，用于了解如何使用 IAM 方法对 MSK 集群中的用户进行身份验证和授权。（总时长包括设置本实验中所用资源的用时）

实验概览
任务 1：检查 MSK 集群
任务 2：发布到经 IAM 验证的 MSK 集群并通过该集群使用
总结

Tags

united states

Reviews

Start your review of Data Engineering on AWS - A Streaming Data Pipeline Solution (Includes Labs) (简体中文)