LLMOps: Quantizing Models and Inference with ONNX Generative Runtime
The Machine Learning Engineer via YouTube
35% Off Finance Skills That Get You Hired - Code CFI35
Google AI Professional Certificate - Learn AI Skills That Get You Hired
Overview
Coursera Flash Sale
40% Off Coursera Plus for 3 Months!
Grab it
Aprende a instalar el onnx runtime con soporte GPU para realizar inferencia con Modelos Generativos en este tutorial de 39 minutos. Explora el proceso de cuantización utilizando un modelo Phi3-mini-4k a 4int y transforma un Phi3-mini-128k a 4int con el runtime onnx. Sigue paso a paso la implementación práctica utilizando el notebook proporcionado en GitHub para dominar técnicas avanzadas de LLMOps, cuantización de modelos e inferencia con ONNX Generative Runtime. Perfecciona tus habilidades en ciencia de datos y aprendizaje automático con este contenido técnico detallado.
Syllabus
LLMOps: Quantizar modelos e Inferencia con ONNX Generative Runtime #datascience #machinelearning
Taught by
The Machine Learning Engineer