清理 ScheduleBatch/ForwardBatch/LogitsMetadata 死字段与始终-False 逻辑
建议其他模块的维护者参考本 PR 的方法:当发现字段仅被写入而不被读取,或标志始终为默认值且无生产者时,应积极清理。本 PR 的清理过程规范(先确认使用历史,再分批提交),值得借鉴。
SGLang is a high-performance serving framework for large language models and multimodal models.
清理 ScheduleBatch/ForwardBatch/LogitsMetadata 死字段与始终-False 逻辑
建议其他模块的维护者参考本 PR 的方法:当发现字段仅被写入而不被读取,或标志始终为默认值且无生产者时,应积极清理。本 PR 的清理过程规范(先确认使用历史,再分批提交),值得借鉴。
新增环境变量约定技能文档及组件规则引用
建议所有参与环境变量相关开发的工程师仔细阅读该技能文档,并在代码审查中依据约定检查。对于希望了解 SGLang 环境变量设计原则的读者也值得参考。
支持 GLM-4.6V 模型在 NPU 上推理
该 PR 实现了对特定模型在 NPU 上的支持,设计与既有 Qwen VL NPU 补丁模式一致,具有较好的参考价值。对于需要在 NPU 上适配其他视觉语言模型的开发者,其补丁机制的架构思路值得学习。但若只是使用 GLM-4.6V 模型,可直接部署功能。
升级 AMD ROCm Dockerfile 中 AITER 依赖版本
建议合并。该 PR 是常规的依赖升级和代码清理,风险低且经过 review。值得关注的设计决策:删除 cherry-pick 而非保留注释(如 bot 建议的合并重复定义未实施),保持了最小改动。
原始 PR · 作者 charlotte12l · 合并时间 2026-05-28 16:22
修复RMSNorm残差路径忽略cast_x_before_out_mul标志
这是一个高质量 bugfix,修复了影响核心正确性的问题,且设计迭代清晰——从临时 fallback 到独立 kernel 再到合并到现有 kernel。值得精读:展示了如何在 CUDA kernel 中通过 `if constexpr` 实现多语义路径,以及如何平衡数值精度与性能。建议相关模型维护者关注黄金测试是否需要调整。
修复 FlashInfer SWA EXTEND-with-prefix 的正确性
建议精读。该 PR 精准定位并修复了一个在 SWA + 前缀缓存组合场景下的静默错误,涉及 FlashInfer 滑动窗口注意力的内部协作细节,对理解 FlashInfer 后端的多 wrapper merge_state 路径有较高参考价值。
为 TorchNativeAttnBackend 添加滑动窗口掩码支持
该 PR 修复了一个影响正确性的 bug,实现清晰且改动范围小,值得合并。建议关注后续的测试 PR,以确保滑动窗口掩码逻辑在各种情况下(如 prefix caching、PD 分离等)的正确性。
原始 PR · 作者 ZeyuanChen2000 · 合并时间 2026-05-28 16:05
修复 ERNIE-4.5 在 NPU 上的 correction_bias 维度错误
该 PR 以最小改动修复了 NPU 上的阻塞问题,值得快速合并。但建议后续将 NPU 特定逻辑收敛到公共组件(如 TopK 层或 NPU 后端),避免模型定义中重复硬件判断。RoPE 风格的修复为重要安全措施,已通过 review 确认。
参与讨论