Un grupo local de defensa a ciudadanos sin ánimo de lucro promueve servicios de asistencia gubernamental a aquellos ciudadanos de su región que cumplan los requisitos. El grupo se dispone a promover un servicio de asistencia de reciente creación. Uno de los principales criterios de elegibilidad es que los ingresos anuales no superen los 50 000 dólares. Además, el grupo cuenta con datos demográficos que incluyen la educación y el empleo de los ciudadanos, pero sólo un subconjunto de los datos incluye datos relativos a los ingresos anuales. El grupo ha solicitado a AnyCompany Consulting una solución del machine learning (ML) que pueda predecir la probabilidad de que una persona tenga unos ingresos inferiores a 50 000 dólares según los restantes datos demográficos. La solución les ayudará a usar su limitado presupuesto de la mejor manera posible, ya que podrán dirigir las propuestas a aquellas personas que más probabilidad tengan de optar al servicio. En AnyCompany Consulting quieren que veas los datos y los prepares. Una vez que los datos estén limpios, quieren que los exportes a su bucket de Amazon Simple Storage Service (Amazon S3).

También quieren que incorpores algunos conjuntos de datos a Amazon SageMaker más adelante, lo que requiere la preparación de datos a gran escala. Quieres probar cómo integrar Apache Spark en Amazon EMR con Amazon SageMaker Studio para procesar los datos y prepararlos.

En este laboratorio, aprenderás no solo a visualizar datos, sino también a prepararlos, y efectuarás varias transformaciones en el conjunto de datos en SageMaker Data Wrangler. Una vez que se hayan transformado los datos, aprenderás a exportarlos a Amazon S3. También aprenderás a detectar clústeres de EMR y a conectarte a ellos de forma segura directamente desde SageMaker Studio. Utilizarás un cuaderno de SageMaker Studio para detectar visualmente un clúster de EMR, así como para autenticarte con él y conectarte a él. Luego, vas a consultar una tabla de Apache Hive en Amazon EMR con Apache Spark.

Objetivos

Al finalizar este laboratorio, deberías ser capaz de llevar a cabo las siguientes tareas:

Seleccionar métodos eficaces de visualización de datos
Explicar el valor de la limpieza y transformación de los datos
Describir cómo procesar valores que falten, valores atípicos, datos duplicados, etc.
Definir técnicas de codificación de claves
Describir cómo ingerir y transformar datos en Amazon SageMaker Data Wrangler
Describir cómo transformar datos con Spark en Amazon EMR

Conocimientos técnicos necesarios

Para completar correctamente este laboratorio, debes tener conocimientos de:

Navegación básica por la Consola de administración de AWS
Los conceptos de bases de datos, MySQL y disponibilidad de bases de datos

Clave de los iconos

En este laboratorio, se utilizan varios iconos para destacar diferentes tipos de instrucciones y notas. En la siguiente lista se explica el propósito de cada uno de ellos:

Precaución: información de especial interés o importancia (no es tan importante como para aparezcan problemas en el equipo o en los datos si la pasas por alto, pero te podría obligar a repetir ciertos pasos).
Más información: indica dónde se puede encontrar más información.
Nota: Una pista, un consejo o una orientación importante.
Tarea completa: un punto de conclusión o resumen del laboratorio.

Reviews

Start your review of Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (Español de España)

Launch a New Career with Certificates from Google, IBM & Microsoft

Advanced Techniques in Data Visualization - Self Paced Online

Objetivos

Conocimientos técnicos necesarios

Clave de los iconos

Tags

MIT Sloan: Lead AI Adoption Across Your Organization — Not Just Pilot It

Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (Español LATAM)

Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (Português)

Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (Français)

Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (Italiano)

Getting Started with Amazon EMR (Español de España)

Build the Finance Skills That Lead to Promotions — Not Just Certificates Ad

14 Best Machine Learning Courses for 2026: Scikit-learn, TensorFlow, and more

12 Best Applied AI & ML Courses for 2026

11 Best Data Visualization Courses In 2026 + Expert Advice For Beginners

AI for Good: A DeepLearning.AI Course Review

Unveiling the Mathematical Beauty of Machine Learning: A Review of Steve Brunton’s Course

Never Stop Learning.