Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Amazon Web Services

Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (繁體中文)

Amazon Web Services and Amazon via AWS Skill Builder

Overview

Coursera Flash Sale
40% Off Coursera Plus for 3 Months!
Grab it

當地的非營利公民倡議團體致力於向其地區的合格公民推廣政府援助服務。倡議團體正在準備推廣新成立的援助服務。申請資格的核心條件之一為申請人的年收入不得高於 50,000 美元。公民倡議團體擁有人口統計資料,其中包括公民教育和就業情況,但只有資料子集包含收入資料。公民倡議團體已要求 AnyCompany Consulting 提供一種機器學習 (ML) 解決方案,該解決方案可以根據其他人口統計資料預測個人收入是否可能少於 50,000 美元。此解決方案可協助他們充分利用其有限的預算,針對最可能符合服務資格的公民進行促銷活動。AnyCompany Consulting 希望您進行資料的視覺化與準備工作。清理資料之後,他們希望您將資料匯出至其 Amazon Simple Storage Service (Amazon S3) 儲存貯體。

除此之外,您還有一些資料集需要進行大規模的資料準備,AnyCompany Consulting 希望您稍後將這些資料匯入 Amazon SageMaker。您想要測試 Amazon EMR 上的 Apache Spark 如何與 Amazon SageMaker Studio 整合以處理資料並準備資料。

在本實驗室中,您將學習如何進行資料的視覺化與準備工作,並在 SageMaker Data Wrangler 中完成對資料集的多項轉換作業。轉換資料之後,您會學習將資料匯回 Amazon S3。您還可以學習如何直接從 SageMaker Studio 發現 EMR 叢集並安全地連接至該叢集。您可以使用 SageMaker Studio 筆記本,以視覺化方式探索、進行驗證並連線至 EMR 叢集。然後,您可以使用 Apache Spark 在 Amazon EMR 上查詢 Apache Hive 表。

目標

完成此實驗室之後,您應該能夠執行以下操作:

  • 選擇視覺化資料的有效方法
  • 解釋資料清理與轉換的價值
  • 描述如何處理缺少的值,異常值,重複的資料等。
  • 定義金鑰編碼技術
  • 描述如何擷取資料並將資料轉換至 Amazon SageMaker Data Wrangler
  • 描述如何在 Amazon EMR 上使用 Spark 轉換資料

技術知識先決條件

若要成功完成此實驗室,您應該具有以下知識:

  • AWS 管理主控台的基本瀏覽方式。
  • 了解資料庫概念、MySQL 及資料庫可用性。

圖示圖例

此實驗室使用各種圖示提醒您注意不同類型的指示和注意事項。下列清單說明各圖示的用途:

  • 提醒:有特殊影響或重要性的資訊 (如果您錯過此資訊,不會對設備或資料造成太大的問題,但可能會導致需要重複特定步驟)。
  • 了解詳情:具體指明可取得更多資訊的位置。
  • 注意:提示、秘訣或重要指引。
  • 任務完成:實驗室中的結論或摘要重點。

Reviews

Start your review of Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (繁體中文)

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.