Overview

"Willkommen zum Kurs „KI-Infrastruktur: Netzwerktechniken“. In diesem Kurs lernen Sie, die Infrastruktur von Google Cloud mit hoher Bandbreite und geringer Latenz zu nutzen, um die Datenübermittlung und die Kommunikation zwischen allen Komponenten Ihres KI-Systems zu optimieren. Am Ende sind Sie in der Lage, die wichtige Rolle von Netzwerken in der gesamten KI-Pipeline – von der Datenaufnahme über das Training bis hin zur Inferenz – zu verstehen und Best Practices anzuwenden, um dafür zu sorgen, dass Ihre Workloads mit maximaler Geschwindigkeit ausgeführt werden."

Syllabus

Kursübersicht

Dieses Modul bietet einen Überblick über den Kurs und stellt die Lernziele vor.

Einführung

Dieses Modul beschreibt die speziellen Netzwerkanforderungen für KI-Workloads im Vergleich mit herkömmlichen Webanwendungen. Es behandelt die spezifischen Bandbreiten- und Latenzanforderungen jeder Pipeline-Stufe – von der Datenerfassung bis zur Inferenz – und analysiert die „Rail-orientierten“ Netzwerkarchitekturen der A3- und A4-GPU-Maschinentypen von Google Cloud, die auf die Maximierung von „Goodput“ ausgelegt sind.

Netzwerke für die Datenaufnahme

In diesem Modul werden Strategien für die effiziente Übertragung riesiger Datasets in die Cloud beschrieben. Es behandelt die Nutzung von Cross-Cloud Network und Cloud Interconnect zum Aufbau von Hochgeschwindigkeits-Pipelines und beschreibt bewährte Konfigurationsmethoden – wie die Aktivierung von Jumbo Frames (MTU) –, um den Protokoll-Overhead zu reduzieren und den Durchsatz zu optimieren.

Netzwerke für das KI-Training

In diesem Modul wird die entscheidende Rolle von Netzwerken mit niedriger Latenz beim Training verteilter Modelle dargestellt. Folgende Inhalte werden behandelt: die Notwendigkeit von RDMA (Remote Direct Memory Access) für die Gradientensynchronisierung, die Vorteile der Titanium-Offload-Architektur von Google bei der Freigabe von CPU-Ressourcen sowie die Topologie, die erforderlich ist, um Cluster ohne Engpässe zu skalieren.

Netzwerke für Inferenzen

Dieses Modul beschreibt speziell bei generativer KI-Inferenz auftretende Herausforderungen in Bezug auf Netzwerke, wie stoßweisen Traffic und langlebige Verbindungen. Es behandelt die Optimierung der Time-to-First-Token-Methode mithilfe des GKE Inference Gateway und des Routings nach Warteschlangenlänge und geht außerdem auf Best Practices für die Netzwerkzuverlässigkeit sowie das Identity and Access Management (IAM) ein.