重构Multimodal调度器请求分发与warmup日志逻辑,拆分辅助方法
建议阅读以了解Multimodal调度器的请求处理架构。`_first_generation_req` 和 `_dispatch_request` 的设计模式可以复用。但PR缺少单元测试,建议在后续合并前补充对辅助方法的测试,尤其是边界情况。
SGLang is a high-performance serving framework for large language models and multimodal models.
重构Multimodal调度器请求分发与warmup日志逻辑,拆分辅助方法
建议阅读以了解Multimodal调度器的请求处理架构。`_first_generation_req` 和 `_dispatch_request` 的设计模式可以复用。但PR缺少单元测试,建议在后续合并前补充对辅助方法的测试,尤其是边界情况。
在所有请求池中预留 slot 0 作为填充
推荐精读,尤其是关注 `HybridReqToTokenPool` 中 Mamba 映射大小的对齐问题。本 PR 展示了如何通过一个简单统一的 padding 约定,为未来的复杂功能(DSv4)提前消除数据竞争风险,是典型的前置兼容性变更。
修复 DP attention 与 mixed chunk 组合时的崩溃
值得合入,修复严重崩溃 bug,改动极小且带有回归测试。可关注后续是否将 `--enable-two-batch-overlap` 与 mixed chunk 的支持补全。
Llama4架构匹配改为显式常量
值得快速合并,提高代码健壮性和可维护性。无需精读。
修复Mamba映射张量大小错误
值得精读,虽然改动小但揭示了内存池大小不匹配的潜在风险。设计上应确保索引张量与索引源(请求池)大小一致。
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-05-02 04:53
修复 EAGLE cuda graph 因 padding 残留和视图别名导致的 OOB
建议快速合并,该修复解决了实际运行中频繁崩溃的已知问题。值得关注的设计决策:1) 清零填充区域 vs 让下游 gather 感知 padding 的权衡;2) 使用 maybe_detect_oob 代替 clamp/assert 以避免 GPU-CPU 同步。
新增环境变量强制FlashInfer使用paged wrapper
该PR改动清晰、聚焦,适合快速合并。值得关注的设计决策是将环境变量读取提前到构造函数并缓存,避免运行时反复读取,体现了良好性能意识。开发者在CUDA graph路径上同步修改也体现了对一致性的重视。
原始 PR · 作者 merrymercy · 合并时间 2026-05-02 03:50
新增2名用户的 CI 权限
可直接合并。此 PR 是标准的权限授予操作,代码变更清晰,review 意见已处理。
参与讨论