Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-28

#26551 Remove dead fields and always-False plumbing across SB / FB / LogitsMetadata

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-28 18:15

重构重要性 7.33 洞察度 3.00

清理 ScheduleBatch/ForwardBatch/LogitsMetadata 死字段与始终-False 逻辑

建议其他模块的维护者参考本 PR 的方法：当发现字段仅被写入而不被读取，或标志始终为默认值且无生产者时，应积极清理。本 PR 的清理过程规范（先确认使用历史，再分批提交），值得借鉴。

refactorperformanceconsistency

#26553 Add env-var-conventions skill

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-28 17:58

文档重要性 4.18 洞察度 4.00

新增环境变量约定技能文档及组件规则引用

建议所有参与环境变量相关开发的工程师仔细阅读该技能文档，并在代码审查中依据约定检查。对于希望了解 SGLang 环境变量设计原则的读者也值得参考。

documentationinfra

#26146 [Ascend NPU] Enable GLM-4.6V series models inference

原始 PR · 作者 syy-hw · 合并时间 2026-05-28 17:27

功能重要性 7.87 洞察度 3.00

支持 GLM-4.6V 模型在 NPU 上推理

该 PR 实现了对特定模型在 NPU 上的支持，设计与既有 Qwen VL NPU 补丁模式一致，具有较好的参考价值。对于需要在 NPU 上适配其他视觉语言模型的开发者，其补丁机制的架构思路值得学习。但若只是使用 GLM-4.6V 模型，可直接部署功能。

npufeaturemultimodal

#26562 [AMD] AITER Upgrade

原始 PR · 作者 bingxche · 合并时间 2026-05-28 17:04

基础设施重要性 3.25 洞察度 3.00

升级 AMD ROCm Dockerfile 中 AITER 依赖版本

建议合并。该 PR 是常规的依赖升级和代码清理，风险低且经过 review。值得关注的设计决策：删除 cherry-pick 而非保留注释（如 bot 建议的合并重复定义未实施），保持了最小改动。

amddockerinfra

#25920 [bugfix] Honor cast_x_before_out_mul in RMSNorm.forward_cuda residual path

原始 PR · 作者 charlotte12l · 合并时间 2026-05-28 16:22

缺陷修复重要性 7.20 洞察度 7.00

修复RMSNorm残差路径忽略cast_x_before_out_mul标志

这是一个高质量 bugfix，修复了影响核心正确性的问题，且设计迭代清晰——从临时 fallback 到独立 kernel 再到合并到现有 kernel。值得精读：展示了如何在 CUDA kernel 中通过 `if constexpr` 实现多语义路径，以及如何平衡数值精度与性能。建议相关模型维护者关注黄金测试是否需要调整。

bugfixjit-kerneltest

#26513 Fix FlashInfer SWA EXTEND-with-prefix correctness in merge_state path

原始 PR · 作者 ch-wan · 合并时间 2026-05-28 16:16

缺陷修复重要性 7.35 洞察度 6.00

修复 FlashInfer SWA EXTEND-with-prefix 的正确性

建议精读。该 PR 精准定位并修复了一个在 SWA + 前缀缓存组合场景下的静默错误，涉及 FlashInfer 滑动窗口注意力的内部协作细节，对理解 FlashInfer 后端的多 wrapper merge_state 路径有较高参考价值。

bugfixdeepseekattention

#26516 Add sliding-window mask support to TorchNativeAttnBackend

原始 PR · 作者 ch-wan · 合并时间 2026-05-28 16:06

缺陷修复重要性 7.23 洞察度 6.00

为 TorchNativeAttnBackend 添加滑动窗口掩码支持

该 PR 修复了一个影响正确性的 bug，实现清晰且改动范围小，值得合并。建议关注后续的测试 PR，以确保滑动窗口掩码逻辑在各种情况下（如 prefix caching、PD 分离等）的正确性。

bugfixattentionperformance

#26038 [NPU] fix model ERNIE-4.5-21B-A3B-PT bias need 1D error

原始 PR · 作者 ZeyuanChen2000 · 合并时间 2026-05-28 16:05

缺陷修复重要性 5.94 洞察度 4.00

修复 ERNIE-4.5 在 NPU 上的 correction_bias 维度错误

该 PR 以最小改动修复了 NPU 上的阻塞问题，值得快速合并。但建议后续将 NPU 特定逻辑收敛到公共组件（如 TopK 层或 NPU 后端），避免模型定义中重复硬件判断。RoPE 风格的修复为重要安全措施，已通过 review 确认。

npubugfix

第 56 / 357 页 · 共 2850 条

上一页 1 … 54 55 56 57 58 … 357 下一页