为 TRTLLM MHA 添加 EAGLE-draft CG 测试覆盖
本次 PR 值得关注其测试方法论:如何通过注入历史 bug 来验证新测试的有效性。建议未来类似修复(尤其涉及 CG capture/replay 路径)都配套此类测试,并利用 bug 注入确保测试能真正捕获回归。
SGLang is a high-performance serving framework for large language models and multimodal models.
为 TRTLLM MHA 添加 EAGLE-draft CG 测试覆盖
本次 PR 值得关注其测试方法论:如何通过注入历史 bug 来验证新测试的有效性。建议未来类似修复(尤其涉及 CG capture/replay 路径)都配套此类测试,并利用 bug 注入确保测试能真正捕获回归。
更新 DeepSeek-V4 基准测试文档
该 PR 为纯粹的文档维护,无代码逻辑变更,对于关注 DeepSeek-V4 评估流程的读者有参考价值。开发团队可将其作为文档更新流程的示例,但无需深入 code review。
Mooncake传输引擎支持环境变量选择EFA协议
建议精读本PR的代码改动,重点关注"如何通过单一环境变量统一两个调用点的协议配置"以及"重构后分支合并的代码组织"。对于部署在AWS EFA的用户,该PR是必合的。
确保多节点MM嵌入缓存一致性
该PR改动较小但重要,值得合入。建议后续考虑增加测试覆盖多节点场景下的缓存一致性。
强化CG-replay测试:生产填充、元数据不变式、多比例扫描
值得精读。本PR展示了如何通过分析测试/生产环境差异来设计有针对性的测试覆盖。`assert_cg_metadata_well_formed`的设计原则(best-effort、静默跳过、单语句检查)和`pad_style`抽象值得在其他测试套件中复用。
修复在线量化路径中使用空配置导致失败的问题
值得精读,尤其关注 `transformer_load_utils.py` 中 `_resolve_quant_config` 的逻辑分支,以及无参构造函数作为约定(约定优于配置)的应用。
原始 PR · 作者 libertyeagle · 合并时间 2026-05-29 12:55
修复 TRTLLM MHA draft decode CUDA graph 捕获时 cache_seqlens 未拷贝
建议精读 PR 的 diff 和 PR body,理解 CUDA graph 捕获时 draft decode 分支的 metadata 初始化逻辑。这是一个典型的捕获路径与 replay 路径不一致导致的 bug,值得学习。
用 AscendC 算子替换 NPU xgrammar bitmask CPU fallback
该 PR 性能提升明确,改动清晰,建议合并。后续可考虑针对 `sgl_kernel_npu` 导入添加 try-except 并以日志告警替代崩溃,增强运行时鲁棒性。同时推荐为 NPU 分支添加单元测试,验证算子 in-place 语义。
参与讨论