Coursera Flash Sale
40% Off Coursera Plus for 3 Months!
Grab it
생성형 AI 추론 시스템의 프로덕션 확장에 대한 21분 분량의 컨퍼런스 발표입니다. 생성형 AI 도입 가속화와 Agentic AI 시스템의 새로운 추론 수요 증가 상황에서 프로토타입을 실제 프로덕션 환경으로 확장할 때 직면하는 비용, 지연 시간, GPU 관리 복잡성 등의 핵심 과제들을 해결하는 방법을 학습하세요. 양자화(quantization), 배치 처리(batching), 캐싱(caching) 등 핵심 추론 최적화 기술을 중심으로 실제 서비스에서 시스템 성능과 안정성을 확보하는 구체적인 방법론을 탐구합니다. FriendliAI의 대규모 추론 서비스 경험을 통해 얻은 실전 교훈을 바탕으로 더 높은 처리량, 더 낮은 비용, 예측 가능한 성능을 달성하는 전략을 이해하고, Continuous Batching 발명자인 FriendliAI 유경인이 직접 공유하는 생성 AI 플랫폼 개발 노하우와 LLM 추론 시스템 최적화 기술을 습득하세요.