En este curso se cubre una parte de la fase de preparación de datos del ciclo de vida de machine learning (ML). En este curso, obtendrás información sobre las estrategias de validación de datos, incluidas las estrategias para la mitigación de los sesgos y la seguridad de los datos. También revisarás algunos servicios de Amazon Web Services (AWS) que pueden ayudar con la validación de datos, incluidos AWS Glue DataBrew y AWS Glue Data Quality. También aprenderás los pasos finales de la preparación y configuración de los datos, como la división, la mezcla, el aumento y la configuración de conjuntos de datos para cargarlo en tu recurso de entrenamiento de modelos.

Nivel del curso: avanzado
Duración: 45 minutos

Actividades

Materiales en línea
Una demostración
Preguntas de la prueba de conocimientos
Una evaluación del curso

Objetivos del curso

Explicar la importancia de garantizar la integridad de los datos
Identificar las métricas fundamentales de sesgo previo al entrenamiento
Describir las estrategias para abordar el desequilibrio de clases en los conjuntos de datos
Describir los servicios clave de AWS para validar la calidad de los datos
Usar las herramientas de AWS para identificar y mitigar las fuentes de sesgo en los datos
Describir las técnicas para usar los servicios de AWS para cifrar los datos
Identificar las implicaciones de los requisitos de conformidad
Describir el valor y la técnica para dividir, mezclar y aumentar los conjuntos de datos
Identificar los formatos de datos utilizados en el entrenamiento de modelos
Identificar las herramientas y los servicios de AWS para la configuración de los datos de entrenamiento de modelos
Describir cómo configurar los datos para cargarlos en un recurso de entrenamiento de modelos

Público objetivo

Arquitectos de la nube
Ingenieros de machine learning

Habilidades recomendadas

Al menos 1 año de experiencia en el uso de Amazon SageMaker y otros servicios de AWS para la ingeniería de machine learning.
Al menos 1 año de experiencia en un puesto relacionado, como desarrollador de software de backend, desarrollador de DevOps, ingeniero de datos o científico de datos.
Una comprensión fundamental de los lenguajes de programación, como Python.
Cursos anteriores del plan de formación intermedio de ingenieros de machine learning de AWS.

Esquema del curso

Sección 1: Introducción

Lección 1: Cómo usar este curso
Lección 2: Información general del curso
Lección 3: Fundamentos de la validación de datos

Sección 2: Validar los datos

Lección 4: Abordar el desequilibrio de clases
Lección 5: Herramientas y servicios de AWS para la validación de datos y la mitigación del sesgo
Lección 6: Identificación y mitigación del sesgo con Amazon SageMaker Clarify
Lección 7: Seguridad de datos y conformidad

Sección 3: Pasos finales de la preparación de datos