#21240 [NVIDIA] Enable FP4 flashinfer trtllm routed moe
作者 trevor-m · 合并时间 2026-04-08 07:16
为FlashInfer TRTLLM路由MoE后端启用FP4量化支持。
对于使用MoE和量化特性的工程师,该PR值得精读以理解FP4路由MoE的实现细节;重点关注 `flashinfer_trtllm.py` 中的逻辑变更,以及如何集成新后端到量化配置中。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 trevor-m · 合并时间 2026-04-08 07:16
为FlashInfer TRTLLM路由MoE后端启用FP4量化支持。
对于使用MoE和量化特性的工程师,该PR值得精读以理解FP4路由MoE的实现细节;重点关注 `flashinfer_trtllm.py` 中的逻辑变更,以及如何集成新后端到量化配置中。
作者 hnyls2002 · 合并时间 2026-04-08 06:56
为多模态生成CI添加快速失败机制,提升PR测试效率。
该PR变更直接,适合快速审阅以了解CI优化策略。关注点:check-stage-health步骤的添加确保了环境检查一致性;pytest -x的引入体现了CI场景差异化设计(PR vs 定时运行)。
作者 Kangyan-Zhou · 合并时间 2026-04-08 06:44
更新H200/B200夜间测试套件,移除旧模型并改用Qwen3.5 FP8权重。
建议测试和DevOps团队审阅此变更,以确保夜间测试覆盖仍满足质量要求。对于工程师,值得关注Qwen3.5 FP8权重和DP-attention变体的测试配置,可作为模型部署和性能优化的参考。
作者 1am9trash · 合并时间 2026-04-08 06:37
优化NSA索引器内核融合与内存拷贝,提升AMD平台推理性能。
该PR值得精读,尤其是对于关注AMD平台性能优化和内核融合技术的工程师。重点关注_update_rope_guarded的设计决策,它展示了如何通过内存地址检查避免冗余拷贝,这是一种在特定上下文中有效的优化模式,但需注意其依赖的假设条件。
作者 dcw02 · 合并时间 2026-04-08 05:48
新增DFLASH推测解码算法支持,扩展SGLang推理框架的推测解码功能。
建议工程师精读此PR,重点关注dflash_worker.py的核心逻辑和集成点(如model_runner.py中的辅助隐藏状态设置),以理解DFLASH算法在SGLang中的实现方式。值得关注的设计决策包括融合内核优化、验证掩码策略处理和非因果注意力模式适配。对于技术管理者,评估是否适合生产环境,考虑兼容性限制和性能收益,并建议进行额外基准测试。
作者 yctseng0211 · 合并时间 2026-04-08 04:48
通过固定模型版本修复AMD CI中Kimi-K2.5-MXFP4测试的权重加载失败问题。
该PR不值得精读,除非您负责AMD CI维护或Kimi模型集成。它只是一个简单的临时修复,设计决策单一(固定版本)。关注点在于团队如何处理上游依赖变更和CI稳定性,以及后续PR将如何解决根本问题。
作者 hnyls2002 · 合并时间 2026-04-08 04:08
迁移废弃的/get_server_info端点至/server_info,并在所有精度测试中打印推测解码接受长度。
该PR变更简单直接,适合快速浏览以了解API迁移和测试工具改进。关注_check_accept_length函数的异常处理设计,确保非推测解码服务器不会导致测试失败。
作者 rainj-me · 合并时间 2026-04-08 03:48
集成kernels社区FlashAttention v3内核,提供统一接口和环境变量控制。
此PR值得精读,重点关注统一接口设计(如`flash_attention.py`中的版本分发机制)、fallback策略(`flash_attention_v3.py`中的异常处理)和缓存管理(环境变量与CI集成),这些设计决策展示了内核集成中的兼容性权衡和用户可配置性最佳实践。
参与讨论