实验概览
当地一个非营利公民倡导团体向所在区域的合格公民推广政府援助服务。倡导团体正准备推广一项新设立的援助服务。其中一个关键的资格标准是,个人的年收入不能超过 50,000 美元。该公民倡导团体拥有包括公民的教育和就业在内的人口统计数据,但只有一部分数据包括收入数据。该公民倡导团体已要求 AnyCompany Consulting 提供一个机器学习 (ML) 解决方案,目标是根据其他人口统计数据预测个人收入是否可能低于 50,000 美元。此解决方案将通过向最有可能获得该服务的公民进行促销,帮助他们最大限度地利用有限的预算。AnyCompany Consulting 希望您实现可视化并准备数据。清理数据后,他们希望您将数据导出到他们的 Amazon Simple Storage Service (Amazon S3) 存储桶中。
除此之外,AnyCompany Consulting 希望您稍后将一些数据集导入 Amazon SageMake,这需要进行大规模的数据准备。您想测试 Amazon EMR 上的 Apache Spark 如何与 Amazon SageMaker Studio 集成来处理和准备数据。
在本实验中,您将学习如何可视化和准备数据,并在 SageMaker Data Wrangler 中完成对数据集的多次转换。转换数据后,您将学习如何将数据导出回 Amazon S3。您还将学习如何直接从 SageMaker Studio 发现并安全连接到 EMR 集群。您将使用 SageMaker Studio Notebook 以可视化方式发现 EMR 集群、对其进行身份验证并连接到该集群。然后,您将使用 Apache Spark 在 Amazon EMR 上查询 Apache Hive 表。
目标
完成本实验后,您应能够:
- 选择有效的数据可视化方法
- 阐明数据清理和转换的价值
- 说明如何处理缺失值、异常值、重复数据等
- 定义关键编码技术
- 说明如何在 Amazon Sagemaker Data Wrangler 中摄取和转换数据
- 说明如何使用 Amazon EMR 上的 Spark 转换数据
技术性知识前提条件
要成功完成本实验,您应该了解以下内容:
- AWS 管理控制台的基本导航操作。
- 了解数据库概念、MySQL 和数据库可用性。
图标说明
本实验中使用了不同图标,以提醒大家注意各种类型的说明和备注。下面的列表解释了每个图标的用途:
- 提醒:提示特别相关或重要的信息(不查看该信息并不会损坏设备或数据,但可能导致需要重复某些步骤)。
- 了解详情:可以找到更多信息的位置。
- 注意:一项提示、技巧或重要指导。
- 任务完成:本实验的总结或结论要点。