在本课程中,您将了解如何使用 AWS 服务构建流数据分析解决方案,这些服务包括 Amazon Kinesis、Amazon Data Firehose 和 Amazon Managed streaming for Apache Kafka (Amazon MSK)。Kinesis 是一项可大规模扩展且持久的实时数据流服务。Amazon MSK 提供一项安全且高度可用的完全托管式 Apache Kafka 服务。
您将了解 Kinesis 和 Amazon MSK 如何与 AWS Glue 和 AWS Lambda 等 AWS 服务集成。本课程将介绍数据分析管道的流数据摄取、流存储和流处理组件。您还将了解如何在 Kinesis 和 Amazon MSK 运营中应用安全性、性能和成本管理最佳实践。
课程分为不同的模块。学习模块将介绍一些新概念和可用于构建解决方案的 AWS 服务。实验模块提供深入的动手操作活动,并附有分步说明来指导您运用所学内容。
课程内容
互动内容、视频、知识考核、评估和动手实验
课程目标
- 识别客户面临的分析挑战,并描述以流数据架构为重点的相应 AWS 解决方案来应对该挑战。
- 描述适用于流应用程序的数据来源以及如何摄取这些数据。
- 确定流数据的短期和长期存储服务。
- 描述如何设计和实施实时数据处理解决方案。
- 了解如何提供流数据供终端用户使用。
- 描述如何使用 Amazon Kinesis、Amazon MSK 和 Amazon Redshift 优化流数据管道。
- 确定用于保护流数据管道的最佳实践。
培训对象
- 数据工程师
- 数据分析师
- 数据架构师
- 商业智能工程师
建议具备的技能
- 具备 2-3 年的数据工程经验
- 具备 1-2 年的 AWS 服务实践经验
- 已完成 AWS Cloud Practitioner Essentials 或同等课程
- 已完成 Fundamentals of Analytics on AWS Part 1 和 Part 2 课程
- 已完成 Data Engineering on AWS – Foundations 课程
课程大纲
模块 1:构建流数据管道解决方案(75 分钟)
本课程介绍如何识别、选择和配置适当的 AWS 服务,以构建流数据管道解决方案,从而实现虚构客户的业务目标。
- 简介
- 从流源摄取数据
- 存储流数据
- 处理数据
- 分析数据
- 最终评估
- 总结
模块 2:使用适用于 Apache Flink 的亚马逊托管服务进行流分析(实验)(45 分钟)
本实验是一项提供分步说明的动手操作活动,通过摄取点击流数据,并使用存储在 Amazon Simple Storage Service (Amazon S3) 中的目录数据扩充这些点击流数据,从而构建流处理管道。您将对已扩充的数据执行分析,以实时了解每个类别的销售额并将输出可视化。
- 实验概览
- 任务 1:设置 Zeppelin Notebook 环境
- 任务 2:连接到 Amazon EC2 生产者并启动点击流生成器
- 任务 3:导入 Zeppelin Notebook
- 任务 4:使用 Zeppelin Notebook 在 Managed Apache Flink Studio 中进行分析开发
- 任务 5:了解 AWS Glue 数据目录中的内存表创建
- 总结
模块 3:优化和保护流数据管道解决方案(45 分钟)
本课程介绍如何为虚构客户配置流数据管道解决方案,以提高效率、控制成本、保护数据安全并管理基础设施。
- 优化
- 安全和监管
- 最终评估
- 总结
模块 4:介绍 Amazon Managed Streaming for Apache Kafka 中的访问控制(实验)(75 分钟)
本实验是一项提供分步说明的动手操作活动,用于了解如何使用 IAM 方法对 MSK 集群中的用户进行身份验证和授权。(总时长包括设置本实验中所用资源的用时)
- 实验概览
- 任务 1:检查 MSK 集群
- 任务 2:发布到经 IAM 验证的 MSK 集群并通过该集群使用
- 总结