Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (简体中文)

Amazon Web Services and Amazon via AWS Skill Builder

Go to class Write review

实验概览

当地一个非营利公民倡导团体向所在区域的合格公民推广政府援助服务。倡导团体正准备推广一项新设立的援助服务。其中一个关键的资格标准是，个人的年收入不能超过 50,000 美元。该公民倡导团体拥有包括公民的教育和就业在内的人口统计数据，但只有一部分数据包括收入数据。该公民倡导团体已要求 AnyCompany Consulting 提供一个机器学习 (ML) 解决方案，目标是根据其他人口统计数据预测个人收入是否可能低于 50,000 美元。此解决方案将通过向最有可能获得该服务的公民进行促销，帮助他们最大限度地利用有限的预算。AnyCompany Consulting 希望您实现可视化并准备数据。清理数据后，他们希望您将数据导出到他们的 Amazon Simple Storage Service (Amazon S3) 存储桶中。

除此之外，AnyCompany Consulting 希望您稍后将一些数据集导入 Amazon SageMake，这需要进行大规模的数据准备。您想测试 Amazon EMR 上的 Apache Spark 如何与 Amazon SageMaker Studio 集成来处理和准备数据。

在本实验中，您将学习如何可视化和准备数据，并在 SageMaker Data Wrangler 中完成对数据集的多次转换。转换数据后，您将学习如何将数据导出回 Amazon S3。您还将学习如何直接从 SageMaker Studio 发现并安全连接到 EMR 集群。您将使用 SageMaker Studio Notebook 以可视化方式发现 EMR 集群、对其进行身份验证并连接到该集群。然后，您将使用 Apache Spark 在 Amazon EMR 上查询 Apache Hive 表。