所有用英伟达Blackwell B200的人,都在花冤枉钱??普林斯顿大学等联合团队指出,这款GPU居然因为软硬件适配问题白白浪费了60%的计算资源。英伟达Blackwell B200作为新一代数据中心GPU,其tensor core张量核心算力达到2.25 PFLOPS,是上一代Hopper H100的2倍。理论上能让注意力计算的速度实现跨越式提升。但理想很丰满……这款GPU发生了严重的偏科。核心算力猛增的同时,关键的配套计算单元却原地踏步。其中,负责指数运算的MUFU单元吞吐量与Hopper架构完全一致,没有任何提升;共享内存的带宽也保持原样,并未跟随张量核心同步升级。这一硬件设计的不对称性,直接导致了性能瓶颈的反转。在大模型核心的注意力计算负载中,原本的性能瓶颈矩阵乘法,如今耗时远低于辅助环节,共享内存的读写操作和指数运算的耗时,反而比矩阵乘法多出25%-60%。算力翻倍的Tensor Core长期处于等待状态,大量计算资源就这么被闲置了。于是,大量开发者花费重金部署的B200 GPU,因核心算力与配套单元的脱节,超六成资源被白白浪费。算力翻倍?No!明明是有力使不出……FlashAttention-4三招破解瓶颈针对Blackwell GPU的偏科问题,FlashAttention-4量身打造了三大优化策略。