ラボの概要
地域の非営利市民支援団体では、その地域の条件を満たした市民への政府支援サービスを促進しています。この支援団体は、新たに設立された支援サービスを促進する準備をしています。主な資格条件の 1 つは、個人の年収が 50,000 USD を超えていないことです。この市民支援団体は、市民の教育と雇用を含んだ人口統計データを持っていますが、収入データは一部のデータにしか含まれていません。この市民支援団体は、AnyCompany Consulting に、他の人口統計データに基づいて個人の収入が 50,000 USD 未満である可能性があるかどうかを予測できる機械学習 (ML) ソリューションを依頼しました。このソリューションは、サービスの対象となる可能性が最も高い市民に広報活動を絞り込むことで、限られた予算を最大限に活用するのに役立ちます。あなたは、データを可視化して準備する仕事を AnyCompany Consulting から依頼されます。データをクリーニングしたら、そのデータを Amazon Simple Storage Service (Amazon S3) バケットにエクスポートする必要があります。
また、Amazon SageMaker に後で取り込むよう AnyCompany Consulting から依頼されているデータセットもあり、これらのデータセットには大規模なデータ準備が必要です。Amazon EMR の Apache Spark を Amazon SageMaker Studio と統合し、データの処理と準備を行う方法をテストしたいと考えています。
このラボでは、データを可視化して準備する方法と、SageMaker Data Wrangler でデータセットにいくつかの変換を実行する方法を学習します。データを変換した後、データを Amazon S3 にエクスポートして戻す方法を学習します。 また、SageMaker Studio で直接 EMR クラスターを検出し、安全に接続する方法を学習します。SageMaker Studio ノートブックを使用して、EMR クラスターを視覚的に検出、認証し、そのクラスターに接続します。それから、Apache Spark を使用して、Amazon EMR の Apache Hive テーブルに対してクエリを実行します。
目標
このラボを修了すると、次のことを習得できます。
- データを可視化するための効果的な方法を選択する。
- データのクリーニングと変換の価値を説明する。
- 欠損値、外れ値、重複データなどを処理する方法を説明する。
- 主なエンコーディング手法を定義する。
- Amazon SageMaker Data Wrangler にデータを取り込み、変換する方法を説明する。
- Amazon EMR での Spark を使用してデータを変換する方法を説明する。
技術知識の前提条件
このラボを修了するには、以下に関する知識が必要です。
- AWS マネジメントコンソールの基本的な操作を行うことができる。
- データベースの概念、MySQL、データベースの可用性について理解している。
アイコンキー
このラボでは、さまざまな種類の手順と注記への注意を促すため、各種アイコンが使用されています。以下のリストは、各アイコンの目的を説明したものです。
- 注意: 特記事項または重要な情報を表す (この情報を読み忘れても、機器やデータに問題が発生するというわけではありませんが、特定のステップを繰り返す必要が生じる可能性があります)。
- 詳細: 詳細情報が記載されている場所を示す。
- 注意: ヒントや重要なガイダンス。
- タスク完了: ラボのまとめや要点を示す。