#21982 [PD] Add a fallback to bypass rust dep for mini_lb
原始 PR · 作者 whybeyoung · 合并时间 2026-04-15 22:34
为 mini_lb 功能添加 Rust 依赖缺失时的降级处理,避免导入失败。
该 PR 变更简单直接,适合快速浏览以了解环境兼容性处理模式。值得关注的设计决策是使用 try-except 进行可选依赖导入,这是一种常见的 Python 模块化技术。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 whybeyoung · 合并时间 2026-04-15 22:34
为 mini_lb 功能添加 Rust 依赖缺失时的降级处理,避免导入失败。
该 PR 变更简单直接,适合快速浏览以了解环境兼容性处理模式。值得关注的设计决策是使用 try-except 进行可选依赖导入,这是一种常见的 Python 模块化技术。
更新 ModelOpt 量化文档并扩展 B200 GPU 上的 CI 测试覆盖。
建议快速浏览文档更新部分以了解量化模型的最新支持;重点关注 `_make_modelopt_ci_case` 函数的设计,它展示了如何标准化创建量化测试用例;检查测试文件中的死引用问题是否已解决。
重置扩散模型CI性能基准阈值,更新基准数据以匹配H100运行结果。
建议:对于维护扩散模型CI的工程师,此PR值得关注基准数据的更新逻辑和容差调整策略;对于其他开发者,可了解如何通过CI脚本优化错误处理。
修复 HiSparse 解码模式下健康检查时的内存泄漏问题。
该 PR 值得快速浏览,重点关注 `process_batch_result_prebuilt` 方法中新增的 HiSparse 协调器通知逻辑。设计决策是仅修复直接导致泄漏的问题,而未采纳 review 中关于补充多模态和 MoE 清理的建议,这可能是一个权衡点,需关注后续是否会出现相关内存问题。
修复流式会话KV内存泄漏,统一尾部释放逻辑并移除重复处理。
该PR值得精读,特别是`_free_tail`的设计决策如何统一处理多种泄漏场景,以及页面对齐的重要性。关注match_prefix中前缀长度计算和断言,理解流式会话的只追加属性如何被强制执行。
原始 PR · 作者 huangtingwei9988 · 合并时间 2026-04-15 16:31
修复 HiCache 在共享索引时内存释放逻辑错误,避免内存泄漏。
该 PR 值得精读,因为它揭示了 HiCache 内存池中共享索引模式下的一个关键设计决策:当索引与锚点共享时,释放操作应仅作用于锚点池,避免重复释放导致状态不一致。关注 `free` 方法的简化如何纠正了原实现中的逻辑错误。
重构流式会话中止处理,集中化清理逻辑并添加并发控制,修复内存泄漏和状态损坏。
建议工程师精读 `session_controller.py` 和 `session_aware_cache.py`,重点关注 `finish_req` 和 `abort_req` 的设计如何解耦令牌历史和KV状态,以及 `match_prefix` 中会话分离的逻辑。这些决策对于理解流式会话的健壮性改进至关重要。
原始 PR · 作者 Hide-on-bushsh · 合并时间 2026-04-15 15:04
更新NPU卸载功能文档,澄清参数限制和DeepSeek专属支持。
该PR属于简单的文档更新,无需深入技术分析。对于NPU平台开发者或配置人员,建议关注文档中明确的限制条件(必须禁用CUDA图、DeepSeek专属支持),这些信息对正确配置环境至关重要。对于一般开发者,无需精读此PR。
参与讨论