AI Infrastructure : techniques de mise en réseau

Overview

Google, IBM & Meta Certificates — All 10,000+ Courses at 40% Off

One annual plan covers every course and certificate on Coursera. 40% off for a limited time.

Bienvenue dans le cours ""AI Infrastructure : techniques de mise en réseau"". Dans ce cours, vous apprendrez à exploiter l'infrastructure à large bande passante et à faible latence de Google Cloud pour optimiser le transfert de données et la communication entre tous les composants de votre système d'IA. À la fin de ce cours, vous comprendrez le rôle essentiel que joue la mise en réseau dans l'ensemble du pipeline d'IA, de l'ingestion de données et de l'entraînement à l'inférence. Vous serez également capable d'appliquer les bonnes pratiques pour vous assurer que vos charges de travail s'exécutent à vitesse maximale.

Syllabus

Présentation du cours

Ce module offre une vue d'ensemble du cours et présente les objectifs d'apprentissage.

Introduction

Ce module détaille les exigences de mise en réseau spécifiques aux charges de travail d'IA et les compare à celles des applications Web traditionnelles. Il présente les besoins spécifiques en bande passante et en latence à chaque étape du pipeline, de l'ingestion à l'inférence, et analyse les architectures réseau "alignées sur rails" des types de machines GPU A3 et A4 de Google Cloud conçues pour maximiser le "débit utile".

Mise en réseau pour l'ingestion de données

Ce module détaille les stratégies permettant de déplacer efficacement de grands ensembles de données vers le cloud. Il explique comment utiliser Cross-Cloud Network et Cloud Interconnect pour créer des pipelines à large bande passante, et décrit les bonnes pratiques de configuration, telles que l'activation des trames géantes (MTU), pour réduire la surcharge du protocole et optimiser le débit.

Mise en réseau pour l'entraînement de l'IA

Ce module détaille le rôle essentiel de la mise en réseau à faible latence dans l'entraînement de modèles distribués. Il explique pourquoi l'accès direct à la mémoire à distance (RDMA) est indispensable pour la synchronisation des gradients et présente les avantages de l'architecture de déchargement Titanium de Google pour libérer des ressources de CPU. Il décrit également les choix de topologie nécessaires pour effectuer le scaling des clusters sans goulots d'étranglement.

Mise en réseau pour l'inférence

Ce module détaille les défis liés à la mise en réseau spécifiques à l'inférence de l'IA générative, tels que le trafic intensif et les connexions à longue durée de vie. Il explique comment optimiser le délai d'émission du premier jeton à l'aide de la passerelle d'inférence GKE et du routage "profondeur de file d'attente". Il présente également les bonnes pratiques de fiabilité du réseau et pour Identity and Access Management (IAM).