英伟达最强B200算力浪费60%，普林斯顿团队出手，利用率升至71%-华为JDC

所有用英伟达Blackwell B200的人，都在花冤枉钱？？普林斯顿大学等联合团队指出，这款GPU居然因为软硬件适配问题白白浪费了60%的计算资源。英伟达Blackwell B200作为新一代数据中心GPU，其tensor core张量核心算力达到2.25 PFLOPS，是上一代Hopper H100的2倍。理论上能让注意力计算的速度实现跨越式提升。但理想很丰满……这款GPU发生了严重的偏科。核心算力猛增的同时，关键的配套计算单元却原地踏步。其中，负责指数运算的MUFU单元吞吐量与Hopper架构完全一致，没有任何提升；共享内存的带宽也保持原样，并未跟随张量核心同步升级。这一硬件设计的不对称性，直接导致了性能瓶颈的反转。在大模型核心的注意力计算负载中，原本的性能瓶颈矩阵乘法，如今耗时远低于辅助环节，共享内存的读写操作和指数运算的耗时，反而比矩阵乘法多出25%-60%。算力翻倍的Tensor Core长期处于等待状态，大量计算资源就这么被闲置了。于是，大量开发者花费重金部署的B200 GPU，因核心算力与配套单元的脱节，超六成资源被白白浪费。算力翻倍？No！明明是有力使不出……FlashAttention-4三招破解瓶颈针对Blackwell GPU的偏科问题，FlashAttention-4量身打造了三大优化策略。