Información general sobre el laboratorio
Su colega está de vacaciones, por lo que usted está a cargo de la práctica de ingeniería de los datos de su organización durante el día. Tome su lugar y explore varias opciones administradas para el movimiento de datos en Amazon Web Services (AWS). Considere los patrones de arquitectura, las optimizaciones de rendimiento y costos y las prácticas de seguridad más recomendadas ¡e impresione a su colega cuando regrese a la oficina!
Su colega le ha proporcionado un entorno de pruebas para que pueda experimentar y hacer una prueba de concepto (proof of concept, POC) en su ausencia. Ha decidido explorar los datos que cree que ayudarán a su pequeña empresa a expandirse con éxito a nuevas ciudades. Utilizará un conjunto de datos de la NOAA (National Oceanic and Atmospheric Administration, Administración Nacional Oceánica y Atmosférica) que le proporciona datos meteorológicos históricos diarios. Usted cree que estos datos pueden ayudar a su empresa a determinar cuándo debe almacenar elementos de verano, en lugar de invierno, en las ciudades a las que se está expandiendo. Para su POC, se centrará en las métricas de temperatura y precipitación.
Este laboratorio utiliza el conjunto de datos del Resumen diario de la superficie global (Global Surface Summary of Day, GSOD) de la NOAA al que se accedió el 5 de agosto de 2022 desde https://registry.opendata.aws/noaa-gsod. Este conjunto de datos es una colección de mediciones meteorológicas diarias (temperatura, velocidad del viento, humedad, presión y más) de más de 9000 estaciones meteorológicas de todo el mundo. Los datos fueron recopilados originalmente por el National Climactic Data Center (Centro Nacional de Datos Climáticos). Debido al límite de tiempo del laboratorio, el conjunto de datos utilizado en este laboratorio se ha reducido para incluir un subconjunto de los años que se encuentran disponibles dentro del conjunto de datos completo.
Objetivos
Al finalizar este laboratorio, podrá realizar lo siguiente:
- crear un rastreador de AWS Glue
- crear y ejecutar un trabajo en AWS Glue Studio
- explorar permisos necesarios para ejecutar los rastreadores de AWS Glue y los trabajos de AWS Glue Studio
- consultar el Catálogo de datos de AWS Glue mediante Amazon Athena
Duración
El tiempo estimado para completar este laboratorio es de 60 minutos.
Significado de los íconos
- Nota: una pista, consejo u orientación importante.
- Más información: dónde encontrar más información.
- Tarea completa: un punto de conclusión o resumen del laboratorio.
- Actualización: un momento en el que podría tener que actualizar una lista o página del navegador web para que se muestre información nueva.