Un grupo local de defensa de los ciudadanos sin fines de lucro fomenta los servicios de asistencia del gobierno para ciudadanos elegibles en su región. El grupo de defensa se prepara para fomentar un servicio de asistencia que fue establecido recientemente. Uno de los criterios de elegibilidad más importantes es que un individuo no puede tener un ingreso anual que exceda los 50 000 USD. El grupo de defensa de los ciudadanos cuenta con datos demográficos que incluyen la educación y empleo de los ciudadanos, pero solo un subconjunto de los datos incluye los datos sobre ingresos. El grupo de defensa de los ciudadanos le ha pedido a la Consultoría de AnyCompany una solución de machine learning (ML) que pueda predecir si es probable que un individuo gane menos de 50 000 USD, según los otros datos demográficos. Esta solución los ayudará a aprovechar al máximo su presupuesto limitado, ya que podrán dirigir sus promociones a los ciudadanos que más probabilidades tienen de ser elegibles para el servicio. La Consultoría de AnyCompany quiere que visualice y prepare los datos. Después de limpiar los datos, quieren que los exporte a su bucket de Amazon Simple Storage Service (Amazon S3).

Además, tiene algunos conjuntos de datos que AnyCompany Consulting quiere que incorpore a Amazon SageMaker más adelante y que requieren la preparación de datos a escala. Debe probar cómo Apache Spark en Amazon EMR puede integrarse con Amazon SageMaker Studio para procesar datos y prepararlo.

En este laboratorio, aprenderá cómo visualizar y preparar datos y completará varias transformaciones en el conjunto de datos en SageMaker Data Wrangler. Después de transformar los datos, aprenderá cómo exportarlos nuevamente a Amazon S3. También aprenderá a descubrir y conectarse de forma segura a un clúster de EMR directamente desde SageMaker Studio. Se utiliza un cuaderno de SageMaker Studio para descubrir, autenticarse y conectarse de manera visual con un clúster de EMR. Luego, se realiza una consulta a una tabla de Apache Hive en Amazon EMR utilizando Apache Spark.

Objetivos

Después de completar este laboratorio, debería poder realizar lo siguiente:

elegir métodos efectivos para visualizar datos
explicar el valor de la limpieza y transformación de datos
describir cómo procesar los valores faltantes, los valores atípicos, los datos duplicados, etc.
definir técnicas de codificación de claves
describir cómo ingerir y transformar datos en Amazon Sagemaker Data Wrangler
describir cómo transformar los datos con Spark en Amazon EMR

Conocimientos técnicos previos necesarios

Para completar con éxito este laboratorio, debe tener conocimientos sobre lo siguiente:

Navegación básica de la consola de administración de AWS.
Comprensión de los conceptos sobre bases de datos, MySQL y disponibilidad de bases de datos.

Significados de los íconos

A lo largo de este laboratorio, se utilizan varios íconos para llamar la atención sobre diferentes tipos de instrucciones y notas. En la siguiente lista, se explica el propósito de cada ícono:

Precaución: información de especial interés o importancia (no es tan importante como para causar problemas con el equipo o los datos si la omite, pero podría generar la necesidad de repetir ciertos pasos).
Más información: dónde encontrar más información.
Nota: Una pista, consejo u orientación importante.
Tarea completada: un punto de conclusión o resumen del laboratorio.

Reviews

Start your review of Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (Español LATAM)

Build GenAI Apps from Scratch — UCSB PaCE Certificate Program

Google, IBM & Microsoft Certificates — All in One Plan

Objetivos

Conocimientos técnicos previos necesarios

Significados de los íconos

Tags

Build the Finance Skills That Lead to Promotions — Not Just Certificates

Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (Español de España)

Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (Italiano)

Introducción a Amazon EMR (Español LATAM) | Amazon EMR Getting Started (LATAM Spanish)

Amazon EMR Getting Started (Español LATAM)

Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (Português)

Future-Proof Your Career: AI Manager Masterclass Ad

14 Best Machine Learning Courses for 2026: Scikit-learn, TensorFlow, and more

12 Best Applied AI & ML Courses for 2026

11 Best Data Visualization Courses In 2026 + Expert Advice For Beginners

AI for Good: A DeepLearning.AI Course Review

Unveiling the Mathematical Beauty of Machine Learning: A Review of Steve Brunton’s Course

Never Stop Learning.