新增 KV-canary 验证 JIT 内核与参考实现
推荐精读此 PR。理由:1) 展示了 JIT 核心理念——用 Python 描述 CUDA 内核并通过 TVM FFI 调用,这在项目中具有代表性;2) 链式哈希验证的设计模式值得学习;3) Review 中关于 CUDA 安全性的讨论对于编写正确内核有借鉴意义。此外,建议关注其与其系列 PR(如 #26806、#26807)的关联。
SGLang is a high-performance serving framework for large language models and multimodal models.
新增 KV-canary 验证 JIT 内核与参考实现
推荐精读此 PR。理由:1) 展示了 JIT 核心理念——用 Python 描述 CUDA 内核并通过 TVM FFI 调用,这在项目中具有代表性;2) 链式哈希验证的设计模式值得学习;3) Review 中关于 CUDA 安全性的讨论对于编写正确内核有借鉴意义。此外,建议关注其与其系列 PR(如 #26806、#26807)的关联。
抽提炼测试服务器启动子进程的公用逻辑
该PR作为测试基础设施的小幅改进值得合并,但建议在后续迭代中修复`_dump`函数的异常安全问题,以避免潜在的文件描述符泄漏。
添加基于 Triton 的执行阶段断言工具
若需使用 GPU 端的阶段断言,该 PR 提供了简洁且高效的实现,值得精读其 Triton kernel 设计和测试覆盖。但需要注意 review 中提出的 constexpr 重编译问题,建议在后续迭代中修复。
新增调试开关选择性回退PR修复
值得关注的设计点:YAML 格式的补丁配置方式(借鉴了类似 `sed` 的匹配-替换模式)、以及在调度器初始化的最后阶段注⼊调试逻辑。但缺少的重复调用防护和简化表达式建议应考虑后续 PR 跟随,以提升健壮性和可读性。
为 KV-canary 前向路径插入 nullcontext 占位符
值得精读——展示了如何通过精心设计的准备性重构来降低后续大型 PR 的复杂度。开发者在规划多 PR 连锁变更时可借鉴此模式。
修复EAGLE chunked prefill draft链发散bug
建议精读本次变更,理解chunked prefill与推测解码交互的细节。值得关注的设计决策是:通过在`ScheduleBatch`中存储`chunked_req_next_prompt_token`,将chunked状态的查询与draft worker解耦。此外,建议尽快将多层EAGLE worker中的TODO落实为实际修复,并补充端到端测试。
修复 Gemma4 位置张量原地修改导致的潜在 bug
该 PR 本质是防御性修复,review 中建议直接无条件切换的意见值得采纳。建议合并后尽快将 `SGLANG_GEMMA_OUT_OF_PLACE_POSITION_MUTATION` 默认值改为 `True`,并在一段观察期后完全移除该环境变量。
修复 Qwen3 权重交换方法的幂等问题
此 PR 为小范围稳健性改进,值得合并。建议后续跟进 Review 中提出的 PP 和 tie_word_embeddings 优化,并增加对应测试。
参与讨论