DSV4 部署生成器五项兼容性修复
本 PR 为文档工具修复,值得部署团队关注,确保生成命令正确。无需深读源码。
SGLang is a high-performance serving framework for large language models and multimodal models.
DSV4 部署生成器五项兼容性修复
本 PR 为文档工具修复,值得部署团队关注,确保生成命令正确。无需深读源码。
编译 spec_v2 的 gather 内核,减少 3 次 kernel launch
本 PR 属于常规性能优化,逻辑清晰简单,值得阅读实现细节以了解如何在 SGLang 代码库中使用 torch.compile 融合操作。
回退#26134的CUDA graph统一重构,保留SWA修复
建议尽快合并以恢复主分支稳定性,并记录回退原因;后续统一重构应充分测试并增加针对性单元测试。本PR展示了review发现深度bug的价值,值得精读review讨论。
原始 PR · 作者 liuxianglong17 · 合并时间 2026-05-23 17:12
抑制 NPU 测试中 transformer 版本兼容性警告日志
仅作简单说明即可,无需深入代码逻辑。如果团队在其他测试文件中也遇到类似 transformer 日志泛滥,可参考此做法统一加环境变量。
保留 VLM 预处理输入 ID 并优化 grid 处理
值得阅读,展示了如何通过提取通用方法和字段来优化 VLM 预处理路径,尤其 `_is_preprocessed_input` 系列方法设计可复用,适合在多模态输入验证场景推广。注意确认没有遗漏原有格式匹配逻辑。
复用 Qwen VLM 预 tokenize 的 ids 和 MRoPE 元数据
值得精读,尤其关注 Qwen 模型前处理数据流和跨模块数据复用的设计模式。建议作者为 `build_padded_input_ids` 和 MRoPE 复用逻辑补充单元测试,以防止未来回归。
适配 Qwen3.5-MTP 模型,删除冗余日志
变更简单清晰,建议合并。值得关注的设计决策是:为 MTP 草稿模型注册多模态处理器的方式是否足够通用,是否需要考虑更多模型变体。
修复 SWA 翻译缓存在 BCG/CG 路径的警告
此 PR 是聚焦的 bugfix,逻辑清晰、改动量小(+14/-11),建议批准合并。虽然缺少新自动化测试,但修复已在实际模型上充分验证。值得关注的设计点是:参数改名揭示了 `TokenToKVPool` 和 `TokenToKVAllocator` 之间的职责边界——方法应定义在拥有属性的对象上,避免中间层转发。
参与讨论