本課程涵蓋機器學習 (ML) 生命週期的部分資料準備階段。在本課程中,您將了解資料轉換。本課程涵蓋多項轉換概念和技術,例如資料清理、編碼和特徵工程。您將探索如何使用 Amazon Web Services (AWS) 服務 (例如 Amazon SageMaker 特徵存放區、Amazon SageMaker Data Wrangler 和 AWS Glue) 來轉換您的資料。
- 課程等級:進階
- 持續時間:60 分鐘
活動
- 線上教材
- 示範
- 知識檢測問題
- 課程評量
課程目標
- 說明資料清理和轉換的價值。
- 描述如何處理不正確或重複的資料。
- 描述如何偵測和處理異常值。
- 描述如何處理缺失值。
- 描述基礎編碼技術。
- 識別特徵工程使用案例。
- 描述特徵工程的基礎概念、優勢和技術。
- 描述基礎特徵選取技術。
- 描述用來驗證及標記資料的 AWS 服務。
- 識別用來視覺化及轉換資料的 AWS 工具和服務。
- 描述如何使用 SageMaker 特徵存放區來擷取資料和管理特徵。
- 描述如何使用 Amazon SageMaker Data Wrangler 擷取和轉換資料。
- 描述如何使用 AWS Glue 來轉換資料。
- 識別用來轉換串流資料的 AWS 工具和服務。
- 描述如何使用 AWS Lambda 和 Amazon EMR 上的 Apache Spark 轉換串流資料。
目標對象
- 雲端架構師
- 機器學習工程師
建議技能
- 擁有至少 1 年使用 Amazon SageMaker 和其他 AWS 服務進行機器學習工程的經驗。
- 在後端軟體開發人員、DevOps 開發人員、資料工程師或資料科學家等相關職位至少 1 年的經驗。
- 對 Python 等程式設計語言有基本的了解。
- AWS 機器學習工程師助理學習計畫中的前導課程。
課程大綱
- 第 1 節:簡介
- 第 1 課:如何運用本課程
- 第 2 課:課程概觀
- 第 3 課:資料轉換基礎
- 第 2 節:資料清理技術
- 第 4 課:不正確和重複的資料
- 第 5 課:資料異常值
- 第 6 課:不完整或缺少的資料
- 第 3 節:類別編碼技術
- 第 7 課:類別編碼
- 第 8 課:編碼技巧
- 第 4 節:特徵工程
- 第 9 課:特徵工程概念
- 第 10 課:數值特徵工程
- 第 11 課:文字特徵工程
- 第 12 課:特徵選取技巧
- 第 5 節:用於資料轉換的 AWS 工具和服務
- 第 13 課:使用 AWS 進行資料標記
- 第 14 課:使用 AWS 進行資料擷取
- 第 15 課:使用 AWS 進行資料轉換
- 第 16 課:使用 AWS Glue 轉換資料
- 第 6 節:結論
- 第 17 課:課程總結
- 第 18 課:評量
- 第 19 課:聯絡我們