이 과정에서는 Amazon Kinesis, Amazon Data Firehose, Amazon Managed Streaming for Apache Kafka(Amazon MSK)를 비롯한 AWS 서비스를 사용하여 스트리밍 데이터 분석 솔루션을 구축하는 방법을 배웁니다. Kinesis는 대규모로 확장 가능하고 내구성이 뛰어난 실시간 데이터 스트리밍 서비스입니다. Amazon MSK는 안전하고 가용성이 뛰어난 완전관리형 Apache Kafka 서비스를 제공합니다.
Kinesis와 Amazon MSK가 AWS Glue와 AWS Lambda 같은 AWS 서비스와 어떻게 통합되는지 알아봅니다. 이 과정에서는 데이터 분석 파이프라인의 스트리밍 데이터 수집, 스트림 스토리지, 스트림 처리 구성 요소를 다룹니다. 또한 보안, 성능, 비용 관리 모범 사례를 Kinesis 및 Amazon MSK 운영에 적용하는 방법도 알아봅니다.
이 과정은 여러 모듈로 나뉩니다. 학습 모듈에서는 솔루션을 구축하는 데 사용할 수 있는 새로운 개념과 AWS 서비스를 소개합니다. 실습 모듈은 학습한 내용을 응용해 볼 수 있는 단계별 지침이 포함된 심층적인 실습 활동입니다.
활동
대화형 콘텐츠, 동영상, 지식 확인, 평가, 실습
과정 목표
- 분석 고객의 당면 과제를 파악하고, 스트리밍 데이터 아키텍처를 사용하여 이를 해결하는 데 적합한 AWS 솔루션을 설명합니다.
- 스트리밍 애플리케이션에 적합한 데이터 소스 및 해당 데이터가 수집되는 방법을 설명합니다.
- 스트리밍 데이터를 위한 단기 및 장기 스토리지 서비스를 파악합니다.
- 실시간 데이터 처리 솔루션을 설계하고 구현하는 방법을 설명합니다.
- 최종 사용자가 사용할 수 있는 스트리밍 데이터를 제공하는 방법을 파악합니다.
- Amazon Kinesis, Amazon MSK, Amazon Redshift를 사용하여 스트리밍 데이터 파이프라인을 최적화하는 방법을 설명합니다.
- 스트리밍 데이터 파이프라인 보안을 위한 모범 사례를 파악합니다.
수강 대상
- 데이터 엔지니어
- 데이터 분석가
- 데이터 아키텍트
- 비즈니스 인텔리전스 엔지니어
권장 기술
- 2~3년의 데이터 엔지니어링 경험
- 1~2년의 AWS 서비스 실습 경험
- AWS Cloud Practitioner Essentials 또는 이와 동등한 과정 수료
- Fundamentals of Analytics on AWS Part 1 및 2 과정 수료
- Data Engineering on AWS – Foundations 과정 수료
과정 개요
모듈 1: 스트리밍 데이터 파이프라인 솔루션 구축(75분)
이 과정에서는 가상 고객의 비즈니스 목표를 충족하기 위한 스트리밍 데이터 파이프라인 솔루션을 구축하는 데 적합한 AWS 서비스를 파악하고, 선택하고, 구성하는 방법을 안내합니다.
- 소개
- 스트림 소스에서 데이터 수집
- 스트리밍 데이터 저장
- 데이터 처리
- 데이터 분석
- 최종 평가
- 완료
모듈 2: Amazon Managed Service for Apache Flink로 스트리밍 분석(실습)(45분)
이 실습은 클릭스트림 데이터를 수집하고 Amazon Simple Storage Service(S3)에 저장된 카탈로그 데이터로 클릭스트림 데이터를 보강하여 스트림 처리 파이프라인을 구축하기 위한 단계별 실습 활동입니다. 보강된 데이터에서 분석을 수행하여 실시간으로 범주별 매출을 파악하고 출력을 시각화합니다.
- 실습 개요
- 태스크 1: Zeppelin 노트북 환경 설정
- 태스크 2: Amazon EC2 생산자에 연결하고 클릭스트림 생성기 시작
- 태스크 3: Zeppelin 노트북 가져오기
- 태스크 4: Zeppelin 노트북을 사용하여 Managed Apache Flink Studio에서 분석 개발
- 태스크 5: AWS Glue Data Catalog에서 인 메모리 테이블 생성 이해
- 완료
모듈 3: 스트리밍 데이터 파이프라인 솔루션 최적화 및 보안(45분)
이 과정에서는 가상 고객의 스트리밍 데이터 파이프라인 솔루션을 구성하여 효율성을 향상하고, 비용을 제어하고, 데이터를 보안 및 보호하고, 인프라를 관리하는 방법을 다룹니다.
- 최적화
- 보안 및 거버넌스
- 최종 평가
- 완료
모듈 4: Amazon Managed Streaming for Apache Kafka를 활용한 액세스 제어 소개(실습)(75분)
이 실습에서는 MSK 클러스터 사용자를 인증하고 권한을 부여하는 IAM 방법에 대해 알아보는 단계별 실습 활동입니다. (총 소요 시간에는 이 실습에서 사용되는 리소스를 설정하는 데 걸리는 시간이 포함됩니다)
- 실습 개요
- 태스크 1: MSK 클러스터 검사
- 태스크 2: IAM 인증 MSK 클러스터에 게시하고 이 클러스터에서 사용
- 완료