Qwen3 30B 模型适配优化需求-华为JDC

情况说明：医院原有Qwen3:30b-a3b-thinking-2507-q4_K_M模型。该模型运行在英伟达L20的服务器上，占用了4卡，运行在Q4精度下，业务部门需求tokens/天吞吐量大概在 9000万。现需将模型部署到华为 910B3 8卡服务器上，目的是满足原有业务部门API调用的 token吞吐量需求和输出精度需求。GPU服务器配置：910B3*8卡（FP16：313FLOPS/卡，总计2.5PFLOPS），1024G DDR4内存软件架构：算力管理平台，MINDIE架构算力分配情况：910B3 4卡部署了DEEPSEEK 70B MINDIE FP16910B3 2卡部署了 qwen3:30b-a3b-thinking-2507 MINDIE FP16910B3 2卡部署了 qwen3:30b-a3b-thinking-2507 MINDIE W8A8结果对比：L20和910B两平台的think在同一份病历相同情况下分析差异：1.2张910B FP16的速度大概是4张L20慢1.5倍；2. W8A8测试输出结果不准3. FP16测试，分析结果上面有些病历华为FP16好，有些是L20好；L20每次分析结果都是不同的，910B FP16分析每次结果都是一致的。调优需求：1.是否可以提升QWEN3 30B在910B平台的输出效率2.是否可以提升QWEN3 30B在910B平台的输出结果精度3.是否可以优化QWEN3 30B在910B平台上各项表现以达到业主的需求感谢支持