Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Google Cloud

AI 基础设施:网络组建和管理技术

Google Cloud via Coursera

Overview

Google, IBM & Meta Certificates — All 10,000+ Courses at 40% Off
One annual plan covers every course and certificate on Coursera. 40% off for a limited time.
Get Full Access
欢迎学习“AI 基础设施:网络组建和管理技术”课程。 在本课程中,您将学习如何利用 Google Cloud 的高带宽、低延迟基础设施,优化 AI 系统所有组件之间的数据传输和通信。学完本课程后,您将了解网络组建和管理在整个 AI 流水线(从数据注入、训练到推理)中发挥的关键作用,并能够应用最佳实践来确保您的工作负载以最高速度运行。

Syllabus

  • 课程概览
    • 本单元概述了课程内容并列出了学习目标。
  • 简介
    • 本单元详细介绍了 AI 工作负载相较于传统 Web 应用所具有的特殊网络组建和管理需求。内容涵盖了从数据注入到推理的各个流水线阶段在带宽和延迟时间方面的具体要求,并分析了 Google Cloud A3 和 A4 GPU 机型如何通过“轨道对齐”的网络架构,最大程度提高“有效吞吐量”。
  • 针对数据注入的网络组建和管理
    • 本单元详细介绍了将海量数据集高效迁移到云端的策略。内容涵盖了如何利用跨云网络和 Cloud Interconnect 构建高带宽流水线,并总结了相关的配置最佳实践(例如启用 Jumbo Frames [MTU]),以减少协议开销并优化吞吐量。
  • 针对 AI 训练的网络组建和管理
    • 本单元详细介绍了低延迟网络组建和管理在分布式模型训练中的关键作用。内容涵盖了 RDMA(远程直接内存访问)对于梯度同步的必要性、Google Titanium 分流架构在释放 CPU 资源方面的优势,以及在不产生瓶颈的情况下扩展集群所需的拓扑方案。
  • 针对推理的网络组建和管理
    • 本单元详细介绍了生成式 AI 推理所面临的特定网络组建和管理挑战,例如突发流量和长期有效的连接。内容涵盖了如何通过 GKE Inference Gateway 和“队列深度”路由来优化首 token 延迟,同时还介绍了在网络可靠性以及 Identity and Access Management (IAM) 方面的最佳实践。
  • 课程资源
    • 所有单元的学员 PDF 链接

Taught by

Google Cloud Training

Reviews

Start your review of AI 基础设施:网络组建和管理技术

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.