Ce cours couvre une partie de la phase de préparation des données du cycle de vie de machine learning (ML). Vous découvrirez dans ce cours les stratégies de validation des données, y compris les stratégies d’atténuation des biais et de sécurité des données. Vous allez également passer en revue quelques services Amazon Web Services (AWS) qui peuvent vous aider à valider les données, notamment AWS Glue DataBrew et AWS Glue Data Quality. Vous découvrirez également les étapes finales de la préparation et de la configuration des données, telles que le fractionnement, le remaniement, l’augmentation et la configuration des jeux de données à charger dans votre ressource d’entraînement de modèle.

Niveau du cours : avancé
Durée : 45 minutes

Activités

Documents en ligne
Une démonstration
Questions de contrôle des connaissances
Une évaluation du cours

Objectifs du cours

Expliquer l’importance de garantir l’intégrité des données.
Identifier les indicateurs fondamentaux des biais préentraînement.
Décrire les stratégies visant à corriger le déséquilibre des classes dans les jeux de données.
Décrire les principaux services AWS permettant de valider la qualité des données.
Utiliser les outils AWS pour identifier et atténuer les sources de biais dans les données.
Décrire les techniques d’utilisation des services AWS pour chiffrer les données.
Identifier les implications des exigences de conformité.
Décrire la valeur et la technique de fractionnement, de remaniement et d’augmentation des jeux de données.
Identifier les formats de données utilisés dans l’entraînement de modèle.
Identifier les outils et services AWS pour la configuration des données d’entraînement de modèle.
Décrire comment configurer les données pour les charger dans une ressource d’entraînement de modèle.

Public visé

Architectes cloud
Ingénieurs Machine Learning

Compétences recommandées

Au moins 1 an d’expérience dans l’utilisation d’Amazon SageMaker et d’autres services AWS pour l’ingénierie ML.
Au moins 1 an d’expérience dans un poste connexe tel que développeur de logiciels backend, développeur DevOps, ingénieur de données ou data scientist.
Compréhension fondamentale des langages de programmation tels que Python.
Cours précédents du programme d’apprentissage AWS ML Engineer Associate.

Déroulement du cours

Section 1 : Introduction

Leçon 1 : Comment utiliser ce cours
Leçon 2 : Présentation du cours
Leçon 3 : Principes fondamentaux de la validation des données

Section 2 : Valider les données

Leçon 4 : Aborder le déséquilibre des classes
Leçon 5 : Outils et services AWS pour la validation des données et l’atténuation des biais
Leçon 6 : Identifier et atténuer les biais avec Amazon SageMaker Clarify
Leçon 7 : Sécurité et conformité des données

Section 3 : Étapes finales de la préparation des données