执行摘要
修复 NPU 上 minimaxm2 模型准确性 bug,准确率从 16.5% 提升至 95.5%。
根据PR body,'Previously, the accuracy for npu for model minimaxm2 is no more than 16.5%',需要修复这一严重准确性缺陷,以提升模型在NPU硬件上的性能和可靠性。
建议工程师精读python/sglang/srt/hardware_backend/npu/moe/topk.py的变更,理解条件调整如何解决准确性问题的设计决策;测试人员可参考新增测试用例扩展其他模型的覆盖。对于性能敏感场景,关注环境变量检查的潜在开销。
review中的核心讨论包括:1) gemini-code-assist[bot]在python/sglang/srt/layers/moe/topk.py(未在文件列表中,但评论提及)中指出,添加环境变量检查get_bool_env_var("FORWARD_NATIVE_TOPK")可能引入性能开销,建议缓存该值以避免重复读取;此建议在提供的材料中未显示是否被采纳。2) Hexq0210在测试文件中建议将tp-size从1改为8以匹配实际配置,作者McZyWu回复'Adopted'并采纳该建议,确保了测试的正确性。
参与讨论