Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-04-23
测试 重要性 4.34 洞察度 5.00

修复B200夜间测试因评估统一导致的GSM8K准确性基线问题。

该PR值得快速浏览,以了解评估统一后的测试适配模式;重点关注`AccuracyTestParams`扩展`api`字段的设计,以及如何通过配置修复因评估方法变更导致的测试失败。

缺陷修复 重要性 5.80 洞察度 4.00

修复 QwenImage 模型在输入图像过多时 RoPE 文本缓存溢出导致的非法内存访问错误。

该 PR 值得快速浏览,重点关注 `get_freqs_cis` 方法中的校验逻辑设计。它展示了在 GPU 密集计算前添加防御性校验的最佳实践,以及如何通过描述性错误信息提升用户体验。对于处理类似缓存溢出问题的开发者有参考价值。

基础设施 重要性 4.88 洞察度 3.00

修改扩散模型测试套件,一致性检查失败时不再重试。

该PR变更简单直接,适合快速浏览以了解测试重试策略的调整。值得关注的设计决策是:将一致性检查失败明确排除在重试逻辑之外,这反映了对失败类型的分类处理(瞬态 vs. 非瞬态),有助于优化CI资源使用。

功能 重要性 4.18 洞察度 2.00

将模拟加速方法的默认值从'multinomial'改为'match-expected'。

该PR变更简单,适合快速浏览以了解配置更新。对于深入理解模拟加速机制或环境变量设计的工程师,可关注`SGLANG_SIMULATE_ACC_METHOD`的使用上下文,但无需精读。

缺陷修复 重要性 8.71 洞察度 7.00

添加 JIT rmsnorm_hf 内核,修复 transformers 后端 MMLU 准确性回归并减少性能损失。

建议精读,重点关注内核设计中的舍入顺序处理(cast-before-weight-multiply)、性能优化策略(Warp/CTA 内核选择)以及测试中的回归防护方法(`test_rmsnorm_hf_matches_hf_not_sgl`),这些对处理类似量化或精度问题有借鉴价值。

测试 重要性 3.27 洞察度 2.00

将EPD解聚测试从提交门禁移至夜间套件,解决因精度边界抖动导致的CI阻塞。

该PR变更简单直接,主要价值在于CI流程优化。对于工程师,可快速浏览以了解测试套件调整模式;对于技术管理者,可关注其反映的测试抖动问题及后续修复计划。无需深入代码精读。

#23521 fix ngram greedy verify kwarg

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-23 11:49

缺陷修复 重要性 4.90 洞察度 3.00

修复 ngram 贪婪验证中因拼写修复导致的关键字参数不匹配问题。

该 PR 值得快速浏览,了解拼写修复可能引发的接口不匹配问题,并关注内核与 Python 侧同步的重要性。

参与讨论