复用 Qwen VLM 预 tokenize 的 ids 和 MRoPE 元数据
值得精读,尤其关注 Qwen 模型前处理数据流和跨模块数据复用的设计模式。建议作者为 `build_padded_input_ids` 和 MRoPE 复用逻辑补充单元测试,以防止未来回归。
SGLang is a high-performance serving framework for large language models and multimodal models.
复用 Qwen VLM 预 tokenize 的 ids 和 MRoPE 元数据
值得精读,尤其关注 Qwen 模型前处理数据流和跨模块数据复用的设计模式。建议作者为 `build_padded_input_ids` 和 MRoPE 复用逻辑补充单元测试,以防止未来回归。
适配 Qwen3.5-MTP 模型,删除冗余日志
变更简单清晰,建议合并。值得关注的设计决策是:为 MTP 草稿模型注册多模态处理器的方式是否足够通用,是否需要考虑更多模型变体。
修复 SWA 翻译缓存在 BCG/CG 路径的警告
此 PR 是聚焦的 bugfix,逻辑清晰、改动量小(+14/-11),建议批准合并。虽然缺少新自动化测试,但修复已在实际模型上充分验证。值得关注的设计点是:参数改名揭示了 `TokenToKVPool` 和 `TokenToKVAllocator` 之间的职责边界——方法应定义在拥有属性的对象上,避免中间层转发。
路由concat_mla到JIT,移除未使用的downcast_fp8
建议合并。这是一个干净的代码清理,经过充分测试,无回归风险。
原始 PR · 作者 xiaobochen-amd · 合并时间 2026-05-23 14:19
修复 Aiter 后端 page_size>1 时 KV indices 越界
该 PR 是关键的 bugfix,涉及显存安全,建议尽快合并并 cherry-pick 到稳定分支。开发者应关注 reviewer 提到的其他位置(`max_kv_len` 计算)是否存在类似问题,后续可能需要进一步修复。
原始 PR · 作者 longxin9715 · 合并时间 2026-05-23 10:50
新增 Ascend NPU 性能分析与算子开发指南
值得查阅,特别是对 Ascend NPU 开发感兴趣的用户。文档示例中的脚本稍显粗糙,建议参考 review 意见自行验证。
为 DeepSeek V4 增加非 MTP 模式测试覆盖
值得查阅,了解 DeepSeek V4 在 B200 和 H200 上的非 MTP 测试配置差异,为后续类似测试添加提供模板。
原始 PR · 作者 ShangmingCai · 合并时间 2026-05-23 10:41
合并三个 PD 后端共享逻辑到公共基类
值得仔细阅读,尤其是想在多后端项目中消除重复代码的团队。本 PR 展示了通过抽象基类 + 模板方法模式(钩子 `_on_heartbeat_success`)实现后端统一化的良好实践。不过,讨论中提出的性能与线程安全建议可以后续跟进。
参与讨论