Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Amazon Web Services

Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (Español de España)

Amazon Web Services and Amazon via AWS Skill Builder

Overview

Coursera Flash Sale
40% Off Coursera Plus for 3 Months!
Grab it

Un grupo local de defensa a ciudadanos sin ánimo de lucro promueve servicios de asistencia gubernamental a aquellos ciudadanos de su región que cumplan los requisitos. El grupo se dispone a promover un servicio de asistencia de reciente creación. Uno de los principales criterios de elegibilidad es que los ingresos anuales no superen los 50 000 dólares. Además, el grupo cuenta con datos demográficos que incluyen la educación y el empleo de los ciudadanos, pero sólo un subconjunto de los datos incluye datos relativos a los ingresos anuales. El grupo ha solicitado a AnyCompany Consulting una solución del machine learning (ML) que pueda predecir la probabilidad de que una persona tenga unos ingresos inferiores a 50 000 dólares según los restantes datos demográficos. La solución les ayudará a usar su limitado presupuesto de la mejor manera posible, ya que podrán dirigir las propuestas a aquellas personas que más probabilidad tengan de optar al servicio. En AnyCompany Consulting quieren que veas los datos y los prepares. Una vez que los datos estén limpios, quieren que los exportes a su bucket de Amazon Simple Storage Service (Amazon S3).

También quieren que incorpores algunos conjuntos de datos a Amazon SageMaker más adelante, lo que requiere la preparación de datos a gran escala. Quieres probar cómo integrar Apache Spark en Amazon EMR con Amazon SageMaker Studio para procesar los datos y prepararlos.

En este laboratorio, aprenderás no solo a visualizar datos, sino también a prepararlos, y efectuarás varias transformaciones en el conjunto de datos en SageMaker Data Wrangler. Una vez que se hayan transformado los datos, aprenderás a exportarlos a Amazon S3. También aprenderás a detectar clústeres de EMR y a conectarte a ellos de forma segura directamente desde SageMaker Studio. Utilizarás un cuaderno de SageMaker Studio para detectar visualmente un clúster de EMR, así como para autenticarte con él y conectarte a él. Luego, vas a consultar una tabla de Apache Hive en Amazon EMR con Apache Spark.

Objetivos

Al finalizar este laboratorio, deberías ser capaz de llevar a cabo las siguientes tareas:

  • Seleccionar métodos eficaces de visualización de datos
  • Explicar el valor de la limpieza y transformación de los datos
  • Describir cómo procesar valores que falten, valores atípicos, datos duplicados, etc.
  • Definir técnicas de codificación de claves
  • Describir cómo ingerir y transformar datos en Amazon SageMaker Data Wrangler
  • Describir cómo transformar datos con Spark en Amazon EMR

Conocimientos técnicos necesarios

Para completar correctamente este laboratorio, debes tener conocimientos de:

  • Navegación básica por la Consola de administración de AWS
  • Los conceptos de bases de datos, MySQL y disponibilidad de bases de datos

Clave de los iconos

En este laboratorio, se utilizan varios iconos para destacar diferentes tipos de instrucciones y notas. En la siguiente lista se explica el propósito de cada uno de ellos:

  • Precaución: información de especial interés o importancia (no es tan importante como para aparezcan problemas en el equipo o en los datos si la pasas por alto, pero te podría obligar a repetir ciertos pasos).
  • Más información: indica dónde se puede encontrar más información.
  • Nota: Una pista, un consejo o una orientación importante.
  • Tarea completa: un punto de conclusión o resumen del laboratorio.

Reviews

Start your review of Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (Español de España)

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.