#22136 [CI] Lower GSM8K baselines for B200 nightly after eval unification
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-23 13:30
修复B200夜间测试因评估统一导致的GSM8K准确性基线问题。
该PR值得快速浏览,以了解评估统一后的测试适配模式;重点关注`AccuracyTestParams`扩展`api`字段的设计,以及如何通过配置修复因评估方法变更导致的测试失败。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-23 13:30
修复B200夜间测试因评估统一导致的GSM8K准确性基线问题。
该PR值得快速浏览,以了解评估统一后的测试适配模式;重点关注`AccuracyTestParams`扩展`api`字段的设计,以及如何通过配置修复因评估方法变更导致的测试失败。
恢复AMD测试文件,添加__main__入口以修复CI静默跳过。
建议测试维护者关注入口点添加模式,以确保测试文件能正确执行;对于性能敏感测试,可考虑实现模型缓存以优化CI运行时间。
原始 PR · 作者 IPostYellow · 合并时间 2026-04-23 12:41
修复 QwenImage 模型在输入图像过多时 RoPE 文本缓存溢出导致的非法内存访问错误。
该 PR 值得快速浏览,重点关注 `get_freqs_cis` 方法中的校验逻辑设计。它展示了在 GPU 密集计算前添加防御性校验的最佳实践,以及如何通过描述性错误信息提升用户体验。对于处理类似缓存溢出问题的开发者有参考价值。
修改扩散模型测试套件,一致性检查失败时不再重试。
该PR变更简单直接,适合快速浏览以了解测试重试策略的调整。值得关注的设计决策是:将一致性检查失败明确排除在重试逻辑之外,这反映了对失败类型的分类处理(瞬态 vs. 非瞬态),有助于优化CI资源使用。
原始 PR · 作者 maocheng23 · 合并时间 2026-04-23 12:26
将模拟加速方法的默认值从'multinomial'改为'match-expected'。
该PR变更简单,适合快速浏览以了解配置更新。对于深入理解模拟加速机制或环境变量设计的工程师,可关注`SGLANG_SIMULATE_ACC_METHOD`的使用上下文,但无需精读。
添加 JIT rmsnorm_hf 内核,修复 transformers 后端 MMLU 准确性回归并减少性能损失。
建议精读,重点关注内核设计中的舍入顺序处理(cast-before-weight-multiply)、性能优化策略(Warp/CTA 内核选择)以及测试中的回归防护方法(`test_rmsnorm_hf_matches_hf_not_sgl`),这些对处理类似量化或精度问题有借鉴价值。
原始 PR · 作者 alisonshao · 合并时间 2026-04-23 11:59
将EPD解聚测试从提交门禁移至夜间套件,解决因精度边界抖动导致的CI阻塞。
该PR变更简单直接,主要价值在于CI流程优化。对于工程师,可快速浏览以了解测试套件调整模式;对于技术管理者,可关注其反映的测试抖动问题及后续修复计划。无需深入代码精读。
修复 ngram 贪婪验证中因拼写修复导致的关键字参数不匹配问题。
该 PR 值得快速浏览,了解拼写修复可能引发的接口不匹配问题,并关注内核与 Python 侧同步的重要性。
参与讨论