Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

YouTube

AI Cloud Manager - 국내 최대 B200 GPU 1,000장 클러스터를 Day 0부터 활용하는 법

SK AI SUMMIT 2024 via YouTube

Overview

Coursera Flash Sale
40% Off Coursera Plus for 3 Months!
Grab it
이 컨퍼런스 발표에서는 SK텔레콤의 AI Cloud Manager를 통해 국내 최대 규모인 B200 GPU 1,000장 클러스터 '해인'을 첫날부터 효율적으로 운영하는 방법을 배워보세요. 초거대 AI 모델 학습 수요 급증에 따른 대규모 GPU 클러스터 구축과 AIOps 솔루션 도입의 필요성을 이해하고, 오픈소스 Slurm 기반의 AI Cloud Manager가 제공하는 다양한 운영 기능들을 살펴보세요. GPU 유휴 시간 최소화 전략, 체계적 모니터링 및 운영 환경 구축, 자동 복구 기능을 통한 안정적인 클러스터 운영 방법을 학습하며, 수백에서 수천 GPU 규모의 최적 개발 및 운영 경험을 얻는 실무적 접근법을 탐구해보세요. HPC와 클라우드 스택을 활용한 고성능 학습 플랫폼 설계 및 구현 사례를 통해 AI 개발자가 개발에만 집중할 수 있는 환경 조성 방법을 익히고, 모니터링 고도화, 장애 감지 및 자동 복구, 설치 자동화를 중심으로 한 대규모 GPU 클러스터의 효율성과 안정성 향상 전략을 습득하세요.

Syllabus

AI Cloud Manager: 국내 최대 B200 GPU 1,000장 클러스터를 Day 0부터 활용하는 법 | SK텔레콤 이주은

Taught by

SK AI SUMMIT 2024

Reviews

Start your review of AI Cloud Manager - 국내 최대 B200 GPU 1,000장 클러스터를 Day 0부터 활용하는 법

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.