移除 managers 模块中 6 个文件的未使用字段
该 PR 是清理死代码的良好实践,值得合并。对于团队新手,可以借此 PR 了解如何安全地识别和删除未使用字段。建议在合并后运行完整的 CI 测试套件以确认无回归。
SGLang is a high-performance serving framework for large language models and multimodal models.
移除 managers 模块中 6 个文件的未使用字段
该 PR 是清理死代码的良好实践,值得合并。对于团队新手,可以借此 PR 了解如何安全地识别和删除未使用字段。建议在合并后运行完整的 CI 测试套件以确认无回归。
清理调度器中的死代码赋值
该 PR 是低风险的清理工作,无需深入审查。但可作为理解 Scheduler 中 prefill 统计信息演进历史的参考:从 `self.adder` 等临时存储迁移到 `new_batch.prefill_stats` 对象化。
移除未使用的 self.X 赋值,改为局部变量
此 PR 属于小范围重构,设计意图清晰但存在一处被指出的潜在 GC 风险尚未解决。建议精读 reviewer 评论并评估 tokenizer_manager.py 的更改是否需要保留引用。对于关注代码清理和属性生命周期管理的工程师有学习价值。整体重要性不高,合并前应确保 disagg 测试通过。
修复 SWA 逐出边界 env 变量未生效 bug
值得精读的场景:关注 SWA cache 逐出策略的开发者;希望了解多分支间 env 变量移植实践的读者。推荐与 #24857 和 `swa_radix_cache.py` 中 `_insert_helper` 的 case 3 对照阅读。
修复 Mistral Large 3 测试因 scale shape 不匹配失败
建议合并。该修复针对性强,改动极小且经过测试验证。可考虑在后续 PR 中增强切片安全性,例如对空 tensor 做 fallback 处理。
添加多 detokenizer 路由器与 CLI 参数
值得精读。该 PR 展示了如何在现有架构中插入一层无状态路由器以水平扩展 detokenizer,其设计模式(基于哈希的固定路由、进程生命周期管理、接口适配)具有参考价值。重点关注 `MultiDetokenizerRouter` 的路由策略和 `_extract_field_by_index` 的修复。
原始 PR · 作者 hanming-lu · 合并时间 2026-05-16 08:15
修复 TRTLLM SWA 推测解码接受长度异常
该 PR 是一个小但关键的 bugfix,修复了一个难以察觉的逻辑错误。建议精读,理解 draft/target 模型在混合 SWA 场景下如何共享内存池。值得关注的设计决策:判断依据从 allocator 类型改为 pool 类型,与 Triton 后端对齐。
原始 PR · 作者 jasonjk-park · 合并时间 2026-05-16 06:45
为自定义 speculative 算法提供扩展点
值得精读的设计模式改动。对于计划开发或集成自定义 speculative 算法的工程师,了解这两个扩展点是必须的。合并审批干净,CI 通过即可合入。建议后续为扩展点补充单元测试,确保新算法集成时不引入回归。
参与讨论