Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-28
重构 重要性 7.33 洞察度 3.00

清理 ScheduleBatch/ForwardBatch/LogitsMetadata 死字段与始终-False 逻辑

建议其他模块的维护者参考本 PR 的方法:当发现字段仅被写入而不被读取,或标志始终为默认值且无生产者时,应积极清理。本 PR 的清理过程规范(先确认使用历史,再分批提交),值得借鉴。

#26553 Add env-var-conventions skill

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-28 17:58

文档 重要性 4.18 洞察度 4.00

新增环境变量约定技能文档及组件规则引用

建议所有参与环境变量相关开发的工程师仔细阅读该技能文档,并在代码审查中依据约定检查。对于希望了解 SGLang 环境变量设计原则的读者也值得参考。

功能 重要性 7.87 洞察度 3.00

支持 GLM-4.6V 模型在 NPU 上推理

该 PR 实现了对特定模型在 NPU 上的支持,设计与既有 Qwen VL NPU 补丁模式一致,具有较好的参考价值。对于需要在 NPU 上适配其他视觉语言模型的开发者,其补丁机制的架构思路值得学习。但若只是使用 GLM-4.6V 模型,可直接部署功能。

#26562 [AMD] AITER Upgrade

原始 PR · 作者 bingxche · 合并时间 2026-05-28 17:04

基础设施 重要性 3.25 洞察度 3.00

升级 AMD ROCm Dockerfile 中 AITER 依赖版本

建议合并。该 PR 是常规的依赖升级和代码清理,风险低且经过 review。值得关注的设计决策:删除 cherry-pick 而非保留注释(如 bot 建议的合并重复定义未实施),保持了最小改动。

缺陷修复 重要性 7.20 洞察度 7.00

修复RMSNorm残差路径忽略cast_x_before_out_mul标志

这是一个高质量 bugfix,修复了影响核心正确性的问题,且设计迭代清晰——从临时 fallback 到独立 kernel 再到合并到现有 kernel。值得精读:展示了如何在 CUDA kernel 中通过 `if constexpr` 实现多语义路径,以及如何平衡数值精度与性能。建议相关模型维护者关注黄金测试是否需要调整。

缺陷修复 重要性 7.35 洞察度 6.00

修复 FlashInfer SWA EXTEND-with-prefix 的正确性

建议精读。该 PR 精准定位并修复了一个在 SWA + 前缀缓存组合场景下的静默错误,涉及 FlashInfer 滑动窗口注意力的内部协作细节,对理解 FlashInfer 后端的多 wrapper merge_state 路径有较高参考价值。

缺陷修复 重要性 7.23 洞察度 6.00

为 TorchNativeAttnBackend 添加滑动窗口掩码支持

该 PR 修复了一个影响正确性的 bug,实现清晰且改动范围小,值得合并。建议关注后续的测试 PR,以确保滑动窗口掩码逻辑在各种情况下(如 prefix caching、PD 分离等)的正确性。

缺陷修复 重要性 5.94 洞察度 4.00

修复 ERNIE-4.5 在 NPU 上的 correction_bias 维度错误

该 PR 以最小改动修复了 NPU 上的阻塞问题,值得快速合并。但建议后续将 NPU 特定逻辑收敛到公共组件(如 TopK 层或 NPU 后端),避免模型定义中重复硬件判断。RoPE 风格的修复为重要安全措施,已通过 review 确认。

参与讨论