Un grupo local de defensa de los ciudadanos sin fines de lucro fomenta los servicios de asistencia del gobierno para ciudadanos elegibles en su región. El grupo de defensa se prepara para fomentar un servicio de asistencia que fue establecido recientemente. Uno de los criterios de elegibilidad más importantes es que un individuo no puede tener un ingreso anual que exceda los 50 000 USD. El grupo de defensa de los ciudadanos cuenta con datos demográficos que incluyen la educación y empleo de los ciudadanos, pero solo un subconjunto de los datos incluye los datos sobre ingresos. El grupo de defensa de los ciudadanos le ha pedido a la Consultoría de AnyCompany una solución de machine learning (ML) que pueda predecir si es probable que un individuo gane menos de 50 000 USD, según los otros datos demográficos. Esta solución los ayudará a aprovechar al máximo su presupuesto limitado, ya que podrán dirigir sus promociones a los ciudadanos que más probabilidades tienen de ser elegibles para el servicio. La Consultoría de AnyCompany quiere que visualice y prepare los datos. Después de limpiar los datos, quieren que los exporte a su bucket de Amazon Simple Storage Service (Amazon S3).
Además, tiene algunos conjuntos de datos que AnyCompany Consulting quiere que incorpore a Amazon SageMaker más adelante y que requieren la preparación de datos a escala. Debe probar cómo Apache Spark en Amazon EMR puede integrarse con Amazon SageMaker Studio para procesar datos y prepararlo.
En este laboratorio, aprenderá cómo visualizar y preparar datos y completará varias transformaciones en el conjunto de datos en SageMaker Data Wrangler. Después de transformar los datos, aprenderá cómo exportarlos nuevamente a Amazon S3. También aprenderá a descubrir y conectarse de forma segura a un clúster de EMR directamente desde SageMaker Studio. Se utiliza un cuaderno de SageMaker Studio para descubrir, autenticarse y conectarse de manera visual con un clúster de EMR. Luego, se realiza una consulta a una tabla de Apache Hive en Amazon EMR utilizando Apache Spark.
Objetivos
Después de completar este laboratorio, debería poder realizar lo siguiente:
- elegir métodos efectivos para visualizar datos
- explicar el valor de la limpieza y transformación de datos
- describir cómo procesar los valores faltantes, los valores atípicos, los datos duplicados, etc.
- definir técnicas de codificación de claves
- describir cómo ingerir y transformar datos en Amazon Sagemaker Data Wrangler
- describir cómo transformar los datos con Spark en Amazon EMR
Conocimientos técnicos previos necesarios
Para completar con éxito este laboratorio, debe tener conocimientos sobre lo siguiente:
- Navegación básica de la consola de administración de AWS.
- Comprensión de los conceptos sobre bases de datos, MySQL y disponibilidad de bases de datos.
Significados de los íconos
A lo largo de este laboratorio, se utilizan varios íconos para llamar la atención sobre diferentes tipos de instrucciones y notas. En la siguiente lista, se explica el propósito de cada ícono:
- Precaución: información de especial interés o importancia (no es tan importante como para causar problemas con el equipo o los datos si la omite, pero podría generar la necesidad de repetir ciertos pasos).
- Más información: dónde encontrar más información.
- Nota: Una pista, consejo u orientación importante.
- Tarea completada: un punto de conclusión o resumen del laboratorio.