Este curso aborda parte de la fase de preparación de datos del ciclo de vida del machine learning (ML). En este curso, aprenderá sobre las estrategias de validación de datos, incluidas las estrategias para la mitigación de sesgos y la seguridad de los datos. También analizará algunos servicios de Amazon Web Services (AWS), como AWS Glue DataBrew y calidad de datos de AWS Glue, que pueden ayudar con la validación de datos. Además, conocerá los pasos finales de la preparación y configuración de los datos, como la división, la mezcla, el aumento y la configuración de conjuntos de datos para cargarlos en su recurso de entrenamiento de modelos.

Nivel del curso: avanzado
Duración: 45 minutos

Actividades

Materiales en línea
Una demostración
Preguntas de evaluación de conocimientos
Una evaluación del curso

Objetivos del curso

Explique la importancia de garantizar la integridad de los datos.
Identifique las métricas de sesgo fundamentales previas al entrenamiento.
Describa las estrategias para abordar el desequilibrio de clases en los conjuntos de datos.
Describa los servicios de AWS clave para validar la calidad de los datos.
Utilice las herramientas de AWS para identificar y mitigar las fuentes de sesgo en los datos.
Describa las técnicas para usar los servicios de AWS para cifrar datos.
Identifique las implicaciones de los requisitos de cumplimiento.
Describa el valor y la técnica de dividir, mezclar y aumentar los conjuntos de datos.
Identifique los formatos de datos utilizados en el entrenamiento de modelos.
Identifique las herramientas y los servicios de AWS para la configuración de datos de entrenamiento de modelos.
Describa cómo configurar los datos para cargarlos en un recurso de entrenamiento de modelos.

Destinatarios

Arquitectos de la nube
Ingenieros de machine learning

Habilidades recomendadas

Al menos 1 año de experiencia en el uso de Amazon SageMaker y otros servicios de AWS para la ingeniería de ML.
Al menos 1 año de experiencia en un rol relacionado, como desarrollador de software de backend, desarrollador de DevOps, ingeniero de datos o científico de datos.
Una comprensión básica de los lenguajes de programación como Python.
Cursos anteriores del programa de aprendizaje AWS ML Engineer Associate.

Esquema del curso

Sección 1: Introducción

Lección 1: Cómo utilizar este curso
Lección 2: Información general del curso
Lección 3: Aspectos básicos de la validación de datos

Sección 2: Validar datos

Lección 4: Cómo abordar el desequilibrio de clases
Lección 5: Herramientas y servicios de AWS para la validación de datos y la mitigación de sesgos
Lección 6: Identificación y mitigación de sesgos con Amazon SageMaker Clarify
Lección 7: Seguridad de datos y cumplimiento

Sección 3: Últimos pasos para la preparación de datos