本課程涵蓋機器學習 (ML) 生命週期的部分資料準備階段。在本課程中,您將學習資料驗證策略,包括減少偏差和資料安全的相關方法。您也會檢閱幾項有助於進行資料驗證的 Amazon Web Services (AWS),包括 AWS Glue DataBrew 和 AWS Glue Data Quality。您也會了解資料準備和組態的最後步驟,例如資料集分割、隨機重排、增強和組態以載入模型訓練資源。
- 課程等級:進階
- 持續時間:45 分鐘
活動
- 線上教材
- 示範
- 知識測驗問題
- 課程評估
課程目標
- 說明確保資料完整性的重要性。
- 識別基礎的訓練前偏差指標。
- 說明處理資料集類別不平衡的策略。
- 說明可用於驗證資料品質的主要 AWS 服務。
- 使用 AWS 工具來識別並減少資料中的偏差來源。
- 說明使用 AWS 服務進行資料加密的技術。
- 識別合規需求所帶來的影響。
- 說明資料集分割、隨機重排和增強的價值與技術。
- 識別模型訓練中所使用的資料格式。
- 識別可用於模型訓練資料組態的 AWS 工具和服務。
- 說明如何設定資料將其載入至模型訓練資源中。
目標對象
- 雲端架構師
- 機器學習工程師
建議技能
- 擁有至少 1 年使用 Amazon SageMaker 和其他 AWS 服務進行 ML 工程的經驗。
- 在後端軟體開發人員、DevOps 開發人員、資料工程師或資料科學家等相關職位至少 1 年的經驗。
- 對 Python 等程式設計語言的基本理解。
- AWS ML 工程師助理學習計畫中的前導課程。
課程大綱
第 1 節:簡介
- 第 1 課:如何運用本課程
- 第 2 課:課程概觀
- 第 3 課:資料驗證基礎知識
第 2 節:驗證資料
- 第 4 課:解決類別不平衡
- 第 5 課:AWS 用於驗證資料與減少偏差的工具和服務
- 第 6 課:透過 Amazon SageMaker Clarify 識別與減少偏差
- 第 7 課:資料安全性與合規性
第 3 節:資料準備的最後步驟
- 第 8 課:資料集分割、隨機重排和增強
- 第 9 課:設定模組訓練的資料
第 4 節:結論
- 第 10 課:課程總結
- 第 11 課:評估
- 第 12 課:聯絡我們
關鍵字
- Gen AI
- 生成式 AI