Overview
Coursera Flash Sale
40% Off Coursera Plus for 3 Months!
Grab it
Las canalizaciones de datos suelen realizarse según uno de los paradigmas extracción y carga (EL); extracción, carga y transformación (ELT), o extracción, transformación y carga (ETL). En este curso, abordaremos qué paradigma se debe utilizar para los datos por lotes y cuándo corresponde usarlo. Además, veremos varias tecnologÃas de Google Cloud para la transformación de datos, incluidos BigQuery, la ejecución de Spark en Dataproc, grafos de canalización en Cloud Data Fusion y procesamiento de datos sin servidores en Dataflow. Los estudiantes obtienen experiencia práctica en la compilación de componentes de canalizaciones de datos en Google Cloud con Qwiklabs.
Syllabus
- Cuándo elegir canalizaciones de datos por lotes
- Aprenderás la función esencial de un ingeniero de datos en el desarrollo y mantenimiento de canalizaciones de datos por lotes, comprenderás sus componentes principales y su ciclo de vida, y analizarás los desafÃos comunes en el procesamiento de datos por lotes. También identificarás los servicios clave de Google Cloud que abordan estos desafÃos.
- Diseña y crea canalizaciones de datos por lotes
- Diseñarás canalizaciones de datos por lotes escalables para la transferencia y transformación de datos de gran volumen. También optimizarás trabajos por lotes para lograr una alta capacidad de procesamiento y rentabilidad con diversas técnicas de administración de recursos y ajuste de rendimiento.
- Controla la calidad de los datos en canalizaciones de datos por lotes
- Desarrollarás reglas de validación de datos y lógica de limpieza para garantizar la calidad de los datos en las canalizaciones por lotes. También implementarás estrategias para administrar la evolución de esquemas y realizar la anulación de duplicación de datos en grandes conjuntos de datos.
- Organiza y supervisa canalizaciones de datos por lotes
- Organizarás flujos de trabajo complejos de canalizaciones de datos por lotes para una programación eficiente y un seguimiento de linaje. También implementarás un manejo de errores, una supervisión y una observabilidad sólidos para las canalizaciones de datos por lotes.
Taught by
Google Cloud Training