#26126 [RL] [Spec v2] Use stop-aware seqlen for returned topk metadata
原始 PR · 作者 yueming-yuan · 合并时间 2026-05-23 09:13
修复 speculative decoding 下 routed topk 元数据越界问题
值得合并,修复逻辑清晰且已有生产验证(upstream 自 sglang-miles)。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 yueming-yuan · 合并时间 2026-05-23 09:13
修复 speculative decoding 下 routed topk 元数据越界问题
值得合并,修复逻辑清晰且已有生产验证(upstream 自 sglang-miles)。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-23 07:34
跳过 trtllm_mla 中不必要的 init_mha_chunk_metadata
该 PR 是一次轻量级性能优化,实现清晰且安全,建议精读理解 trtllm_mla 的 fallback 机制;代码风格和逻辑可直接复用于其他类似的元数据初始化方法。
为 GLM-5/DSV3.2 添加 NSA 注意力 PCG 支持
值得精读。核心设计(`register_split_op` + `register_custom_op` 拆分 NSA 索引器)是 PCG 支持 DSA 模型的关键模式,可以推广到其他不符合 PCG 约束的算子。同时关注后续 PR #26718 对 guard 的改动,以及是否有更通用的 NSA indexer 抽象。
原始 PR · 作者 maocheng23 · 合并时间 2026-05-23 05:23
移除 DeepSeekV3 trtllm MoE 冗余 FP32 转换
建议阅读 PR body 中的设计分析,了解作者为何分阶段清理 MoE 路径。该 PR 展示了如何基于版本依赖安全移除冗余操作,并为后续重构留下明确标记,值得 ML 工程团队借鉴。合并者 Qiaolin-Yu 和 reviewer b8zhong 均已批准。
修复 RadixLinearAttention BCG 支持,消除静默错误
推荐合入,该 PR 以极小的改动修复了一个严重影响模型输出正确性的 bug,且提供了充分的基准测试数据。值得精读的地方在于 `eager_on_graph` 装饰器的使用模式,这是 BCG 框架中确保某些操作不在 CUDA Graph 内被捕获的标准做法。
FutureMap 增加 consume 前值非负断言
值得精读。该 PR 展示了在 GPU 异步执行环境中使用编译断言进行不变量检查的实践,对理解 FutureMap 的语义契约和 CI 诊断能力有帮助。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-23 01:59
在 /server_info 暴露 KV-event publisher 描述符,支持路由器自发现
值得精读。设计决策清晰:将 introspection 方法放在配置对象自身,使用懒加载避免循环依赖,安全返回 null 而非异常。review 中的绑定一致性问题提醒了跨文件契约验证的重要性。测试驱动方式(绕过 HTTP 层直接调用 handler)也值得参考。
Req token-id 存储迁移至 array.array('q') 优化长 prompt 性能
建议 PR 评审者仔细阅读,尤其是 `flatten_arrays_to_int64_tensor` 的实现和 `Req` 字段迁移的处理方式,可为类似数据类型迁移提供参考。
参与讨论