DSV4 MHC pre 启动预热,消除冷启动尾部延迟
建议阅读 `model_runner.py` 中的钩子扩展方式和 `mhc.py` 中代表桶计算逻辑,这是模型特定预热与框架解耦的典型设计。此外,`prewarm_mhc_token_counts` 方法对显存和时间的权衡(通过 `del` 及时释放)也值得借鉴。本 PR 无显著风险,可正常合入。
SGLang is a high-performance serving framework for large language models and multimodal models.
DSV4 MHC pre 启动预热,消除冷启动尾部延迟
建议阅读 `model_runner.py` 中的钩子扩展方式和 `mhc.py` 中代表桶计算逻辑,这是模型特定预热与框架解耦的典型设计。此外,`prewarm_mhc_token_counts` 方法对显存和时间的权衡(通过 `del` 及时释放)也值得借鉴。本 PR 无显著风险,可正常合入。
diffusion executor 启用 inference_mode 加速约 7%
值得精读。设计上采用「全局 inference_mode + stage 级回退」的 scoped 模式,优雅处理了不同组件的 version counter 依赖,为 future 优化提供了可扩展的框架。LoRA 的 `_as_mutable_tensor` 方法也是处理 inference tensor 不可变性的典型模式。
修复多模态处理器默认使用 GPU 0 的问题
最小侵入修复,逻辑清晰,推荐合并。值得关注的是多 GPU 资源隔离的设计思路:预处理应在当前进程绑定的 GPU 上进行,而非全局默认设备。
修复 CPU 上 LLaMA 3.2 11B 视觉模型的 Cross-Attention 与设备绑定等问题
该 PR 值得精读,尤其关注以下设计决策:如何通过参数化扩展已有注意力内核以支持 cross-attention、跨注意力时 KV 索引偏移的计算逻辑、以及 Python 后端如何兼容多个注意力后端。C++ 内核中条件编译和后处理保留的权衡也值得参考。
封装 SWA 位置转换到 SWAKVPool 并添加逐缓存失效
值得精读。设计上通过精心选择缓存键和失效策略在不需要外部协调的情况下实现了正确性。特别是 `data_ptr` 与 `storage data_ptr` 的区别、CUDA 图捕获中的缓存生命周期控制,是值得注意的设计细节。
原始 PR · 作者 yctseng0211 · 合并时间 2026-05-21 11:51
校准 AMD EAGLE3 测试阈值并延长采样窗口
建议合入。该 PR 针对 AMD CI 回归问题提供了合理且最小侵入的校准方案,在保留测试覆盖率的同时适应平台差异。值得关注的决策:`is_in_amd_ci()` 条件分支适配策略,可作为跨平台 CI 测试参数化的参考模式。
添加可覆盖钩子支持自定义 Chat Serving 实现
该 PR 体现了良好的开闭原则设计,值得开发扩展 OpenAI API 实现的团队精读。Review 中的讨论展示了如何通过保护的钩子位置和参数类型避免回归。建议关注 sse_utils.py 的模块化设计和协议接口的使用。
修复 EPD 模式下 Qwen3VL MoE 权重加载崩溃
值得快速合并,修复明确且安全。建议关注 MoE 子类是否还有其他未对齐父类防护的模式,可系统审计 `qwen3_vl_moe.py` 中其他可能直接访问 `self.model` 的位置。
参与讨论