AI 大模型基础架构:从入门到放弃?(第二讲) AI 大模型的训练与推理,早已不是单一算力的比拼,而是算力、网络、存储三大核心底座的协同博弈。如果说 GPU 是 AI 大模型的 “心脏”,提供核心算力支撑,那么高性能网络就是串联算力的 “血管”,保障数据高速无损流转;高效存储则是承载数据的 “粮仓”,满足海量数据的存取需求。本期公开课中,我将深度拆解了 AI 大模型底座的核心逻辑,重点剖析了 IB 网络、以太网两大主流网络技术的底层原理、架构设计与场景适配,同时梳理了 AI 时代存储的核心需求与解决方案,为国产化 AI 基础设施建设提供了关键参考。本文将从网络、存储两大维度,结合技术细节、架构设计、性能对比与场景选择,全面解析 AI 大模型高性能底座的构建逻辑。 一、AI 大模型底座核心逻辑:算力之外,网络与存储定成败AI 大模型的本质是预测下一个 token 的概率,核心运算为向量卷积,简化而言就是大规模的乘法与加法运算。而支撑这一运算的底层,是n 层注意力机制(Transformer) 带来的海量计算需求 —— 无论是 OpenAI 的 32 层、64 层模型,还是更复杂的超百层模型,多层叠加的训练逻辑,直接催生了多机多卡并行的必然选择。多机多卡并行的核心痛点,不在于算力堆叠,而在于数据通信瓶颈。数据并行、流水线并行、专家并行等主流并行策略,均需将算子、token 分割后在多 GPU、多服务器间流转,集合通信效率直接决定训练速度。同时,AI 大模型训练、推理、 checkpoint 保存、模型加载等全流程,涉及 TB 级甚至 PB 级数据的读写,存储的带宽、延迟、并发能力成为制约底座性能的另一关键。正如行业共识所言:短期缺芯片,长期缺能源,永远缺存储。AI 时代,算力可通过 GPU 堆叠补齐,但网络的 “无损传输”、存储的 “高效存取”,无法通过简单硬件叠加实现,必须依托一体化、全栈式的底层架构设计。英伟达、华为等厂商的技术布局,均围绕这一核心逻辑展开,而 IB 网络与以太网的技术博弈,本质是高性能与低成本、专用化与通用化的路线之争。 二、AI 网络 “血管” 深度解析:IB 网络 —— 高性能无损的贵族方案IB(InfiniBand)网络是面向 HPC(高性能计算)与 AI 场景的专用高速网络,由英伟达收购的 Mellanox 主导研发,凭借低延迟、高带宽、无损传输三大核心优势,成为万卡级大规模集群的首选方案,堪称 AI 网络领域的 “贵族方案”。其核心价值在于从网卡、线缆、交换机到软件算子、调度控制的全栈优化,彻底解决了分布式 AI 训练中的集合通信瓶颈。(一)核心软件:NCCL—— 集合通信的效率基石多机多卡并行的核心是集合通信(如 all-gather、all-reduce、broadcast),即数据在多 GPU 间的同步、聚合与分发。英伟达自研的NCCL(NVIDIA Collective Communications Library) 是 IB 网络的核心软件算子库,专为 GPU 集群集合通信优化。NCCL 可依托 PCIe、NVLink、IB 网络实现高速互联,大幅提升 GPU 间通信效率,避免传统通信方式的延迟损耗。华为对应的 HCCL 算子库,逻辑与 NCCL 高度相似,开发者无需关注底层细节,仅需在代码中指定通信算子为 NCCL/HCCL,即可实现高效集合通信。NCCL 的核心价值,是将集合通信从 CPU 卸载到硬件层面,让 GPU 算力聚焦于模型训练,而非数据传输。(二)硬件核心:NVLink 与 ConnectX 网卡 —— 高速互联的硬件支撑1. NVLink:GPU 直连的高速通道 传统 PCIe 总线存在带宽低、延迟高的瓶颈,无法满足多 GPU 全互联需求。NVLink是英伟达自研的高速通用互联技术,专为 GPU-GPU、GPU-CPU 通信设计,当前速率已达900GB/s,延迟远低于 PCIe 5.0。NVLink 的核心优势是全互联(all-to-all),可实现多 GPU 间无阻塞数据传输,完美适配 all-reduce、all-to-all 等流量模型。搭配 NVSwitch 交换机,可将多节点 GPU 集群构建为超大规模全互联网络,彻底规避总线瓶颈,是 IB 网络实现万卡集群性能的关键硬件支撑。1. ConnectX 网卡:卸载计算的智能终端 英伟达收购 Mellanox 后,其ConnectX 系列网卡成为 IB 网络的标配,最新第八代 SmartNIC 速率达 800GB/s,黄教主多次强调 800GB 网卡是未来 AI 集群的核心配置。ConnectX 网卡的核心设计思路是能力卸载(Offload)—— 将部分网络计算、数据处理能力从 GPU、CPU 转移到网卡,实现三大核心价值:一是带宽翻倍、CPU 占用率骤降;二是支持DPU 级简单计算,可完成数据预处理、压缩等操作,减少网络传输量;三是适配端云协同场景,实现低延迟数据交互。这种 “去中心化” 的硬件设计,打破了传统 “算力集中、网络被动适配” 的模式,是 IB 网络性能领先的关键。 (三)组网架构:交换机、线缆与 UFM 控制器 —— 全栈可控的无损网络1. 交换机与线缆:专用硬件保障无损传输 IB 网络交换机分为带网管(QM9700)与不带网管(QF9790) 两类,主流采用Spine-Leaf(胖树)架构:Spine 层(核心层)用 QM9700,Leaf 层(接入层)用 QF9790,实现全互联组网,支持 3 万 + 交换机规模,满足万卡集群需求。线缆分为DAC(铜缆,短距机架内,低能耗) 与AOC(有源光缆,长距跨机架),专用线缆配合网卡、交换机,从物理层面保障数据无损传输。但 IB 硬件价格高昂,光模块、线缆容错率低,稍有灰尘或震动就可能故障,这也是其 “贵族方案” 的重要特征。2. UFM 控制器:SDN 级全局管控 IB 网络与以太网的核心差异,是拥有原生 UFM(Unified Fabric Manager)控制器,类似 SDN 流表控制,实现全网统一管控。UFM 为双机主备部署,接入 IB 网络后自动生成拓扑,为每个网口分配唯一LID(本地 ID),替代 IP 地址进行数据寻址。UFM 的核心价值是网内计算与自愈能力:一是实时监控全网流量,自动优化路径,解决 one-to-one、all-to-all 流量拥堵;二是链路故障时秒级自动选路,无需人工干预,避免训练中断;三是支持集群全生命周期管理,适配超算、AI 集群的复杂运维需求。这种 “硬件专用 + 软件全局管控” 的模式,是 IB 网络实现微秒级延迟、零丢包的核心原因。(四)直通技术:GPU、存储直连,消除数据搬运损耗IB 网络配套的GPU Direct 直通技术,从数据流转全链路优化,消除 CPU 中转带来的延迟,分为三类:1. GPU Direct P2P:同一节点内 GPU 直接访问彼此显存,无需 CPU 内存中转,是多卡并行的基础;2. GPU Direct RDMA:跨服务器 GPU 通过网卡直连,绕过 CPU 实现数据传输,解决分布式集群跨节点通信瓶颈;3. GPU Direct Storage(GDS):GPU 直接访问存储设备,无需 CPU 内存缓冲,减少数据拷贝损耗,适配海量数据训练场景。 三、AI 网络 “血管” 备选方案:以太网 —— 性价比优先的平民路线以太网是通用网络技术,凭借成本低、生态开放、硬件通用三大优势,成为千卡级集群、混合云场景的主流选择,堪称 AI 网络领域的 “平民路线”。其核心逻辑是在通用硬件基础上,通过软件优化实现类 IB 的无损传输,本质是 “用技术弥补硬件差距”。(一)核心技术:三大拥塞控制协议 —— 实现无损传输的关键以太网天生为 “尽力而为” 设计,存在丢包、延迟不稳定问题,无法直接适配 AI 训练场景。为此,行业推出PFC、ECN、DCQCN三大核心协议,构建RoCEv2(RDMA over Converged Ethernet) 无损以太网:1. PFC(优先流量控制):将链路分为 8 个优先级通道,高优先级流量(如训练数据)优先传输,避免低优先级流量抢占带宽;2. ECN(显式拥塞通知):链路拥塞时,交换机提前通知发送端降速,避免缓冲区溢出导致丢包;3. DCQCN(数据中心量化拥塞通知):结合 PFC 与 ECN,实现端到端流量控制,精准调节发送速率,平衡吞吐量与延迟。三大协议的组合,让以太网实现微秒级延迟、低丢包率,勉强适配 AI 训练场景,但配置复杂、技术门槛高—— 以太网 AI 网络的调优成本,往往占设备总成本的 30% 以上,需要专业团队长期维护。(二)性能对比:IB 网络 vs 以太网 —— 鱼与熊掌不可兼得表格对比维度IB 网络以太网(RoCEv2)延迟1μs 左右(极低)5μs 左右(中等)带宽最高 900GB/s最高 400GB/s(逐步向 800GB/s 升级)成本极高(硬件、光模块、运维)中等(硬件通用,调优成本高)运维难度极低(即插即用,自动自愈)极高(协议配置复杂,需持续调优)生态专用生态,工具链封闭开放生态,硬件兼容、软件灵活适用场景万卡级大规模集群、高并发训练千卡级集群、混合云、成本敏感场景简单而言:IB 网络 “除了贵,没缺点”,以太网 “除了便宜,全是缺点”。大规模、高稳定性需求选 IB,成本敏感、技术团队强选以太网,二者无绝对优劣,仅适配不同场景。四、AI 存储 “粮仓”:适配多场景,构建分层存储体系AI 大模型全流程(训练、推理、checkpoint、模型加载、检索)的 IO 特征差异极大,单一存储无法满足需求,需构建分层存储体系,覆盖热存储、分布式并行存储、冷存储三大层级。(一)热存储:内存级低延迟,适配实时推理热存储以内存、高速缓存为核心,适配推理阶段 KV Cache、模型加载等突发随机小 IO、秒级响应场景,核心需求是低延迟、高并发。当前主流方案为内存计算,无需数据库支撑,直接在内存中完成数据交互,是推理性能的关键保障。(二)分布式并行存储:高带宽高并发,支撑大规模训练大规模训练需TB 级数据、高带宽、多客户端并发读写,传统 HDFS 难以适配小文件、高并发场景,并行文件系统成为核心方案:1. Lustre(莲花 FS):AI 训练主流并行存储,支持万级客户端并发,高带宽低延迟,适配超大规模数据读写,英伟达深度推荐;2. DDN 并行存储:国外厂商自研并行文件系统,专为 AI 场景优化,支持统一命名空间、无限扩容,双主架构保障高可用,是 IB 网络集群的标配存储方案。(三)冷存储:低成本大容量,存储非结构化数据AI 模型、训练样本多为非结构化数据,需低成本、大容量存储,主流采用对象存储(S3、文本存储),适配冷数据归档、模型备份、历史样本存储等场景,核心需求是低成本、高可靠性。五、国产化趋势与异构训练:未来底座的核心方向(一)国产化替代:灵衢 vs MRC,国产技术崛起华为自研灵衢技术,融合 NVLink、NVSwitch、RDMA 三大技术,构建国产化高速互联方案,已开源生态,适配国产 GPU 集群。英伟达推出的MRC 技术,本质是对标灵衢,二者均面向超节点计算,是未来大规模集群的核心技术方向,国产化替代正从硬件、软件全栈推进。(二)异构训练:GPU 虚拟化 + 调度编排,降本增效异构 GPU(国产卡 + 英伟达卡、新卡 + 旧卡)训练是行业刚需,核心解决方案分为两步:1. GPU 虚拟化:通过微 GPU 技术,将单卡算力拆分,或整合多卡异构算力,构建统一 GPU 池;2. 调度编排:通过训练调度技术,将模型算子分配到异构 GPU 上,平衡算力差异,实现高效并行。六、总结AI 大模型高性能底座的构建,核心是算力、网络、存储的全栈协同。IB 网络凭借全栈优化、无损传输,成为大规模集群的首选;以太网以性价比优势,适配成本敏感场景;分层存储体系则覆盖 AI 全流程 IO 需求,保障数据高效存取。国产化趋势下,华为灵衢、国产并行存储、异构训练技术持续突破,逐步打破国外技术垄断。未来,AI 底座的竞争,将从单一技术比拼,转向全栈架构、生态协同、成本控制的综合博弈,而理解网络 “血管” 与存储 “粮仓” 的底层逻辑,是构建高性能 AI 底座的核心前提。