Un groupe local à but non lucratif de défense des citoyens promeut les services d’aide gouvernementale auprès des citoyens éligibles de leur région. Ce groupe se prépare à promouvoir un nouveau service d’aide. L’un des principaux critères d’éligibilité est que le revenu annuel des personnes concernées ne doit pas dépasser 50 000 dollars américains. Le groupe de défense des citoyens dispose de données démographiques qui incluent le niveau d’éducation et l’emploi des citoyens, mais seule une partie de ces données comprend des informations sur les revenus. Le groupe de défense des citoyens a demandé à AnyCompany Consulting de fournir une solution d’apprentissage automatique (ML) capable de prédire si un individu est susceptible de gagner moins de 50 000 dollars américains, sur la base des autres données démographiques. Cette solution les aidera à tirer le meilleur parti de leur budget limité en ciblant les promotions sur les citoyens les plus susceptibles de bénéficier du service. AnyCompany Consulting souhaite que vous visualisiez et prépariez les données. Une fois les données nettoyées, ils souhaitent que vous les exportiez vers leur compartiment Amazon Simple Storage Service (Amazon S3).
En outre, AnyCompany Consulting souhaite que vous intégriez ultérieurement à Amazon SageMaker certains jeux de données qui nécessitent une préparation des données à grande échelle. Vous souhaitez tester la manière dont Apache Spark sur Amazon EMR peut être intégré à Amazon SageMaker Studio pour traiter les données et les préparer.
Dans cet atelier, vous allez apprendre à visualiser et à préparer des données, et à effectuer plusieurs transformations sur le jeu de données dans SageMaker Data Wrangler. Une fois les données transformées, vous apprenez à les réexporter vers Amazon S3. Vous apprendrez également à découvrir et à vous connecter en toute sécurité à un cluster EMR directement depuis SageMaker Studio. Vous utiliserez un bloc-notes SageMaker Studio pour découvrir visuellement un cluster EMR, vous authentifier et vous connecter à celui-ci. Vous interrogerez ensuite une table Apache Hive sur Amazon EMR à l’aide d’Apache Spark.
Objectifs
À la fin de cet atelier, vous saurez comment :
- Choisir des méthodes efficaces pour visualiser les données
- Expliquer la valeur du nettoyage et de la transformation des données
- Décrire comment traiter les valeurs manquantes, les valeurs aberrantes, les données dupliquées, etc.
- Définir les techniques d’encodage de clés
- Décrire comment ingérer et transformer des données dans Amazon Sagemaker Data Wrangler
- Décrire comment transformer des données à l’aide de Spark sur Amazon EMR
Connaissances techniques préalables
Pour mener à bien cet atelier, vous devez connaître :
- La navigation basique de la Console de gestion AWS.
- Les concepts de base de données, de MySQL et de la disponibilité des bases de données.
Signification des icônes
De nombreuses icônes sont utilisées dans cet atelier pour attirer l’attention sur différents types d’instructions et de remarques. La liste suivante explique la signification de chaque icône :
- Attention : information présentant un intérêt spécial ou d’une importance particulière (pas assez importante pour causer des problèmes pour l’équipement ni les données si vous n’y faites pas attention, mais susceptible de vous amener à devoir répéter certaines étapes).
- En savoir plus : emplacement où trouver davantage d’informations.
- Remarque : indice, directive ou conseil important.
- Tâche terminée : une conclusion ou un récapitulatif de l’atelier.