【干货分享】AI 大模型基础架构：从入门到放弃？（第二讲）-华为JDC

AI 大模型基础架构：从入门到放弃？（第二讲） AI 大模型的训练与推理，早已不是单一算力的比拼，而是算力、网络、存储三大核心底座的协同博弈。如果说 GPU 是 AI 大模型的 “心脏”，提供核心算力支撑，那么高性能网络就是串联算力的 “血管”，保障数据高速无损流转；高效存储则是承载数据的 “粮仓”，满足海量数据的存取需求。本期公开课中，我将深度拆解了 AI 大模型底座的核心逻辑，重点剖析了 IB 网络、以太网两大主流网络技术的底层原理、架构设计与场景适配，同时梳理了 AI 时代存储的核心需求与解决方案，为国产化 AI 基础设施建设提供了关键参考。本文将从网络、存储两大维度，结合技术细节、架构设计、性能对比与场景选择，全面解析 AI 大模型高性能底座的构建逻辑。一、AI 大模型底座核心逻辑：算力之外，网络与存储定成败AI 大模型的本质是预测下一个 token 的概率，核心运算为向量卷积，简化而言就是大规模的乘法与加法运算。而支撑这一运算的底层，是n 层注意力机制（Transformer）带来的海量计算需求 —— 无论是 OpenAI 的 32 层、64 层模型，还是更复杂的超百层模型，多层叠加的训练逻辑，直接催生了多机多卡并行的必然选择。多机多卡并行的核心痛点，不在于算力堆叠，而在于数据通信瓶颈。数据并行、流水线并行、专家并行等主流并行策略，均需将算子、token 分割后在多 GPU、多服务器间流转，集合通信效率直接决定训练速度。同时，AI 大模型训练、推理、 checkpoint 保存、模型加载等全流程，涉及 TB 级甚至 PB 级数据的读写，存储的带宽、延迟、并发能力成为制约底座性能的另一关键。正如行业共识所言：短期缺芯片，长期缺能源，永远缺存储。AI 时代，算力可通过 GPU 堆叠补齐，但网络的 “无损传输”、存储的 “高效存取”，无法通过简单硬件叠加实现，必须依托一体化、全栈式的底层架构设计。英伟达、华为等厂商的技术布局，均围绕这一核心逻辑展开，而 IB 网络与以太网的技术博弈，本质是高性能与低成本、专用化与通用化的路线之争。二、AI 网络 “血管” 深度解析：IB 网络 —— 高性能无损的贵族方案IB（InfiniBand）网络是面向 HPC（高性能计算）与 AI 场景的专用高速网络，由英伟达收购的 Mellanox 主导研发，凭借低延迟、高带宽、无损传输三大核心优势，成为万卡级大规模集群的首选方案，堪称 AI 网络领域的 “贵族方案”。其核心价值在于从网卡、线缆、交换机到软件算子、调度控制的全栈优化，彻底解决了分布式 AI 训练中的集合通信瓶颈。（一）核心软件：NCCL—— 集合通信的效率基石多机多卡并行的核心是集合通信（如 all-gather、all-reduce、broadcast），即数据在多 GPU 间的同步、聚合与分发。英伟达自研的NCCL（NVIDIA Collective Communications Library）是 IB 网络的核心软件算子库，专为 GPU 集群集合通信优化。NCCL 可依托 PCIe、NVLink、IB 网络实现高速互联，大幅提升 GPU 间通信效率，避免传统通信方式的延迟损耗。华为对应的 HCCL 算子库，逻辑与 NCCL 高度相似，开发者无需关注底层细节，仅需在代码中指定通信算子为 NCCL/HCCL，即可实现高效集合通信。NCCL 的核心价值，是将集合通信从 CPU 卸载到硬件层面，让 GPU 算力聚焦于模型训练，而非数据传输。（二）硬件核心：NVLink 与 ConnectX 网卡 —— 高速互联的硬件支撑1. NVLink：GPU 直连的高速通道传统 PCIe 总线存在带宽低、延迟高的瓶颈，无法满足多 GPU 全互联需求。NVLink是英伟达自研的高速通用互联技术，专为 GPU-GPU、GPU-CPU 通信设计，当前速率已达900GB/s，延迟远低于 PCIe 5.0。NVLink 的核心优势是全互联（all-to-all），可实现多 GPU 间无阻塞数据传输，完美适配 all-reduce、all-to-all 等流量模型。搭配 NVSwitch 交换机，可将多节点 GPU 集群构建为超大规模全互联网络，彻底规避总线瓶颈，是 IB 网络实现万卡集群性能的关键硬件支撑。1. ConnectX 网卡：卸载计算的智能终端英伟达收购 Mellanox 后，其ConnectX 系列网卡成为 IB 网络的标配，最新第八代 SmartNIC 速率达 800GB/s，黄教主多次强调 800GB 网卡是未来 AI 集群的核心配置。ConnectX 网卡的核心设计思路是能力卸载（Offload）—— 将部分网络计算、数据处理能力从 GPU、CPU 转移到网卡，实现三大核心价值：一是带宽翻倍、CPU 占用率骤降；二是支持DPU 级简单计算，可完成数据预处理、压缩等操作，减少网络传输量；三是适配端云协同场景，实现低延迟数据交互。这种 “去中心化” 的硬件设计，打破了传统 “算力集中、网络被动适配” 的模式，是 IB 网络性能领先的关键。（三）组网架构：交换机、线缆与 UFM 控制器 —— 全栈可控的无损网络1. 交换机与线缆：专用硬件保障无损传输 IB 网络交换机分为带网管（QM9700）与不带网管（QF9790）两类，主流采用Spine-Leaf（胖树）架构：Spine 层（核心层）用 QM9700，Leaf 层（接入层）用 QF9790，实现全互联组网，支持 3 万 + 交换机规模，满足万卡集群需求。线缆分为DAC（铜缆，短距机架内，低能耗）与AOC（有源光缆，长距跨机架），专用线缆配合网卡、交换机，从物理层面保障数据无损传输。但 IB 硬件价格高昂，光模块、线缆容错率低，稍有灰尘或震动就可能故障，这也是其 “贵族方案” 的重要特征。2. UFM 控制器：SDN 级全局管控 IB 网络与以太网的核心差异，是拥有原生 UFM（Unified Fabric Manager）控制器，类似 SDN 流表控制，实现全网统一管控。UFM 为双机主备部署，接入 IB 网络后自动生成拓扑，为每个网口分配唯一LID（本地 ID），替代 IP 地址进行数据寻址。UFM 的核心价值是网内计算与自愈能力：一是实时监控全网流量，自动优化路径，解决 one-to-one、all-to-all 流量拥堵；二是链路故障时秒级自动选路，无需人工干预，避免训练中断；三是支持集群全生命周期管理，适配超算、AI 集群的复杂运维需求。这种 “硬件专用 + 软件全局管控” 的模式，是 IB 网络实现微秒级延迟、零丢包的核心原因。（四）直通技术：GPU、存储直连，消除数据搬运损耗IB 网络配套的GPU Direct 直通技术，从数据流转全链路优化，消除 CPU 中转带来的延迟，分为三类：1. GPU Direct P2P：同一节点内 GPU 直接访问彼此显存，无需 CPU 内存中转，是多卡并行的基础；2. GPU Direct RDMA：跨服务器 GPU 通过网卡直连，绕过 CPU 实现数据传输，解决分布式集群跨节点通信瓶颈；3. GPU Direct Storage（GDS）：GPU 直接访问存储设备，无需 CPU 内存缓冲，减少数据拷贝损耗，适配海量数据训练场景。三、AI 网络 “血管” 备选方案：以太网 —— 性价比优先的平民路线以太网是通用网络技术，凭借成本低、生态开放、硬件通用三大优势，成为千卡级集群、混合云场景的主流选择，堪称 AI 网络领域的 “平民路线”。其核心逻辑是在通用硬件基础上，通过软件优化实现类 IB 的无损传输，本质是 “用技术弥补硬件差距”。（一）核心技术：三大拥塞控制协议 —— 实现无损传输的关键以太网天生为 “尽力而为” 设计，存在丢包、延迟不稳定问题，无法直接适配 AI 训练场景。为此，行业推出PFC、ECN、DCQCN三大核心协议，构建RoCEv2（RDMA over Converged Ethernet）无损以太网：1. PFC（优先流量控制）：将链路分为 8 个优先级通道，高优先级流量（如训练数据）优先传输，避免低优先级流量抢占带宽；2. ECN（显式拥塞通知）：链路拥塞时，交换机提前通知发送端降速，避免缓冲区溢出导致丢包；3. DCQCN（数据中心量化拥塞通知）：结合 PFC 与 ECN，实现端到端流量控制，精准调节发送速率，平衡吞吐量与延迟。三大协议的组合，让以太网实现微秒级延迟、低丢包率，勉强适配 AI 训练场景，但配置复杂、技术门槛高—— 以太网 AI 网络的调优成本，往往占设备总成本的 30% 以上，需要专业团队长期维护。（二）性能对比：IB 网络 vs 以太网 —— 鱼与熊掌不可兼得表格对比维度IB 网络以太网（RoCEv2）延迟1μs 左右（极低）5μs 左右（中等）带宽最高 900GB/s最高 400GB/s（逐步向 800GB/s 升级）成本极高（硬件、光模块、运维）中等（硬件通用，调优成本高）运维难度极低（即插即用，自动自愈）极高（协议配置复杂，需持续调优）生态专用生态，工具链封闭开放生态，硬件兼容、软件灵活适用场景万卡级大规模集群、高并发训练千卡级集群、混合云、成本敏感场景简单而言：IB 网络 “除了贵，没缺点”，以太网 “除了便宜，全是缺点”。大规模、高稳定性需求选 IB，成本敏感、技术团队强选以太网，二者无绝对优劣，仅适配不同场景。四、AI 存储 “粮仓”：适配多场景，构建分层存储体系AI 大模型全流程（训练、推理、checkpoint、模型加载、检索）的 IO 特征差异极大，单一存储无法满足需求，需构建分层存储体系，覆盖热存储、分布式并行存储、冷存储三大层级。（一）热存储：内存级低延迟，适配实时推理热存储以内存、高速缓存为核心，适配推理阶段 KV Cache、模型加载等突发随机小 IO、秒级响应场景，核心需求是低延迟、高并发。当前主流方案为内存计算，无需数据库支撑，直接在内存中完成数据交互，是推理性能的关键保障。（二）分布式并行存储：高带宽高并发，支撑大规模训练大规模训练需TB 级数据、高带宽、多客户端并发读写，传统 HDFS 难以适配小文件、高并发场景，并行文件系统成为核心方案：1. Lustre（莲花 FS）：AI 训练主流并行存储，支持万级客户端并发，高带宽低延迟，适配超大规模数据读写，英伟达深度推荐；2. DDN 并行存储：国外厂商自研并行文件系统，专为 AI 场景优化，支持统一命名空间、无限扩容，双主架构保障高可用，是 IB 网络集群的标配存储方案。（三）冷存储：低成本大容量，存储非结构化数据AI 模型、训练样本多为非结构化数据，需低成本、大容量存储，主流采用对象存储（S3、文本存储），适配冷数据归档、模型备份、历史样本存储等场景，核心需求是低成本、高可靠性。五、国产化趋势与异构训练：未来底座的核心方向（一）国产化替代：灵衢 vs MRC，国产技术崛起华为自研灵衢技术，融合 NVLink、NVSwitch、RDMA 三大技术，构建国产化高速互联方案，已开源生态，适配国产 GPU 集群。英伟达推出的MRC 技术，本质是对标灵衢，二者均面向超节点计算，是未来大规模集群的核心技术方向，国产化替代正从硬件、软件全栈推进。（二）异构训练：GPU 虚拟化 + 调度编排，降本增效异构 GPU（国产卡 + 英伟达卡、新卡 + 旧卡）训练是行业刚需，核心解决方案分为两步：1. GPU 虚拟化：通过微 GPU 技术，将单卡算力拆分，或整合多卡异构算力，构建统一 GPU 池；2. 调度编排：通过训练调度技术，将模型算子分配到异构 GPU 上，平衡算力差异，实现高效并行。六、总结AI 大模型高性能底座的构建，核心是算力、网络、存储的全栈协同。IB 网络凭借全栈优化、无损传输，成为大规模集群的首选；以太网以性价比优势，适配成本敏感场景；分层存储体系则覆盖 AI 全流程 IO 需求，保障数据高效存取。国产化趋势下，华为灵衢、国产并行存储、异构训练技术持续突破，逐步打破国外技术垄断。未来，AI 底座的竞争，将从单一技术比拼，转向全栈架构、生态协同、成本控制的综合博弈，而理解网络 “血管” 与存储 “粮仓” 的底层逻辑，是构建高性能 AI 底座的核心前提。