Un grupo local de defensa a ciudadanos sin ánimo de lucro promueve servicios de asistencia gubernamental a aquellos ciudadanos de su región que cumplan los requisitos. El grupo se dispone a promover un servicio de asistencia de reciente creación. Uno de los principales criterios de elegibilidad es que los ingresos anuales no superen los 50 000 dólares. Además, el grupo cuenta con datos demográficos que incluyen la educación y el empleo de los ciudadanos, pero sólo un subconjunto de los datos incluye datos relativos a los ingresos anuales. El grupo ha solicitado a AnyCompany Consulting una solución del machine learning (ML) que pueda predecir la probabilidad de que una persona tenga unos ingresos inferiores a 50 000 dólares según los restantes datos demográficos. La solución les ayudará a usar su limitado presupuesto de la mejor manera posible, ya que podrán dirigir las propuestas a aquellas personas que más probabilidad tengan de optar al servicio. En AnyCompany Consulting quieren que veas los datos y los prepares. Una vez que los datos estén limpios, quieren que los exportes a su bucket de Amazon Simple Storage Service (Amazon S3).
También quieren que incorpores algunos conjuntos de datos a Amazon SageMaker más adelante, lo que requiere la preparación de datos a gran escala. Quieres probar cómo integrar Apache Spark en Amazon EMR con Amazon SageMaker Studio para procesar los datos y prepararlos.
En este laboratorio, aprenderás no solo a visualizar datos, sino también a prepararlos, y efectuarás varias transformaciones en el conjunto de datos en SageMaker Data Wrangler. Una vez que se hayan transformado los datos, aprenderás a exportarlos a Amazon S3. También aprenderás a detectar clústeres de EMR y a conectarte a ellos de forma segura directamente desde SageMaker Studio. Utilizarás un cuaderno de SageMaker Studio para detectar visualmente un clúster de EMR, así como para autenticarte con él y conectarte a él. Luego, vas a consultar una tabla de Apache Hive en Amazon EMR con Apache Spark.
Objetivos
Al finalizar este laboratorio, deberías ser capaz de llevar a cabo las siguientes tareas:
- Seleccionar métodos eficaces de visualización de datos
- Explicar el valor de la limpieza y transformación de los datos
- Describir cómo procesar valores que falten, valores atípicos, datos duplicados, etc.
- Definir técnicas de codificación de claves
- Describir cómo ingerir y transformar datos en Amazon SageMaker Data Wrangler
- Describir cómo transformar datos con Spark en Amazon EMR
Conocimientos técnicos necesarios
Para completar correctamente este laboratorio, debes tener conocimientos de:
- Navegación básica por la Consola de administración de AWS
- Los conceptos de bases de datos, MySQL y disponibilidad de bases de datos
Clave de los iconos
En este laboratorio, se utilizan varios iconos para destacar diferentes tipos de instrucciones y notas. En la siguiente lista se explica el propósito de cada uno de ellos:
- Precaución: información de especial interés o importancia (no es tan importante como para aparezcan problemas en el equipo o en los datos si la pasas por alto, pero te podría obligar a repetir ciertos pasos).
- Más información: indica dónde se puede encontrar más información.
- Nota: Una pista, un consejo o una orientación importante.
- Tarea completa: un punto de conclusión o resumen del laboratorio.