#27372 [PD] Fix KV cache corruption on abort by notifying ongoing prefill
原始 PR · 作者 ShangmingCai · 合并时间 2026-06-06 00:56
修复 PD 解耦中止时 KV 缓存损坏
该 PR 值得精读,尤其是设计决策:轻量通知 vs 延迟释放。了解 PD 解耦系统中 abort 处理的权衡对相关开发者有帮助。但需注意代码中未处理的消息解析风险。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 ShangmingCai · 合并时间 2026-06-06 00:56
修复 PD 解耦中止时 KV 缓存损坏
该 PR 值得精读,尤其是设计决策:轻量通知 vs 延迟释放。了解 PD 解耦系统中 abort 处理的权衡对相关开发者有帮助。但需注意代码中未处理的消息解析风险。
修正3FS后端测试的CI stage配置
可快速合并,无代码 review 必要。
新增 LoadBasedPolicy 路由策略,按最低活跃负载选择 worker
该 PR 值得精读,尤其是 `LoadBasedPolicy` 的实现简洁且符合 `Policy` trait 约定,可作为自定义路由策略的范本。Review 中提出的 herd effect 和测试 flaky 问题是关注的焦点,建议在实际部署前评估并解决这些潜在风险。此外,`SelectionContext` 中的 `routing_key` 字段暗示了未来的扩展方向,值得留意后续工作。
为 multimodal_gen 添加 Ideogram 4 FP8 文生图支持
值得精读。该 PR 展示了在 SGLang 框架中系统性地添加新扩散模型的完整流程,包括配置、模型、pipeline 和测试,尤其是通过继承基类减少重复代码和共享工具函数的设计思路值得学习。
修复 CUDA 13 下 activation.cuh JIT 编译失败
值得立即合入,特别是需要支持 CUDA 13 的用户。关注点:建议在 CI 中增加 CUDA 13 的 JIT 编译测试,防止类似问题再次发生。该 PR 展示了处理编译器版本差异模板问题的通用技巧。
修复 HiCache 3FS 测试的 CI 配置
建议回退该 PR 的变更,或同步更新 CI 套件配置(如 `.github/workflows/pr-test.yml` 等),确保 `base-b-test-4-gpu-h100` 套件存在。同时,应审查测试是否确实需要 4 GPU 资源,或者是否可以通过其他方式(如增加超时、重试机制)来解决不稳定问题。
修复 incremental streaming 下 customized_info 切分与累积逻辑
值得精读。该 PR 展示了如何将动态键纳入现有流式框架,以及通过继承 Engine 进行集成测试的模式。对于需要自定义采样器并依赖流式正确性的开发者有直接参考价值。
修复 HiMamba HiCache 预取在 L3 传输后挂起
精读价值中等;对于使用 HiCache 和 Mamba 模型的开发者值得关注。建议阅读 `hi_mamba_radix_cache.py` 的 `can_terminate_prefetch` 方法,理解预取生命周期管理。
参与讨论