情况说明:医院原有Qwen3:30b-a3b-thinking-2507-q4_K_M模型。该模型运行在英伟达L20的服务器上,占用了4卡,运行在Q4精度下,业务部门需求tokens/天吞吐量大概在 9000万。现需将模型部署到华为 910B3 8卡服务器上,目的是满足原有业务部门API调用的 token吞吐量需求和输出精度需求。GPU服务器配置:910B3*8卡(FP16:313FLOPS/卡,总计2.5PFLOPS),1024G DDR4内存软件架构:算力管理平台,MINDIE架构算力分配情况:910B3 4卡部署了DEEPSEEK 70B MINDIE FP16910B3 2卡部署了 qwen3:30b-a3b-thinking-2507 MINDIE FP16910B3 2卡部署了 qwen3:30b-a3b-thinking-2507 MINDIE W8A8结果对比:L20和910B两平台的think在同一份病历相同情况下分析差异:1.2张910B FP16的速度大概是4张L20慢1.5倍;2. W8A8测试输出结果不准3. FP16测试,分析结果上面有些病历华为FP16好,有些是L20好;L20每次分析结果都是不同的,910B FP16分析每次结果都是一致的。 调优需求:1.是否可以提升QWEN3 30B在910B平台的输出效率2.是否可以提升QWEN3 30B在910B平台的输出结果精度3.是否可以优化QWEN3 30B在910B平台上各项表现以达到业主的需求感谢支持