Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-14 00:48 同步状态:空闲 下次计划:2026-06-14 01:48

PR 列表

更多筛选
2026-03-24

#20947 [Test] Add unit tests for srt/parser

原始 PR · 作者 Zijun9 · 合并时间 2026-03-24 00:26

测试 重要性 5.00 洞察度 5.00

为 srt/parser 模块新增 306 个单元测试,实现接近 100% 的覆盖率。

这是一个高质量的测试 PR,值得工程师精读以学习如何为解析器模块编写全面的单元测试,特别是使用真实对象和覆盖边缘情况的设计,以及 review 中关于测试隔离和注释维护的实践。

2026-03-23
缺陷修复 重要性 6.00 洞察度 6.00

修复JIT RMSNorm中对hidden_size {64,128,256}的静默失败,并改进错误处理。

建议技术管理者将此PR作为JIT内核扩展和性能优化的典型案例,工程师可精读`rmsnorm_warp` kernel设计和性能基准比较,学习如何平衡代码可读性与性能,并关注错误处理改进以提高用户体验。

性能优化 重要性 6.00 洞察度 7.00

优化Qwen3.5 GDN投影层,通过Triton核融合操作减少内核启动和内存分配。

该PR值得精读,特别关注Triton核的设计实现、权重加载器的兼容性处理,以及性能优化策略。工程师可从中学习内核融合技术和量化模型适配方法。

#21200 [NPU] bugfix for import sgl-kernel error

原始 PR · 作者 McZyWu · 合并时间 2026-03-23 19:52

缺陷修复 重要性 5.00 洞察度 4.00

修复 NPU 上因错误导入 sgl-kernel 导致的所有模型失败问题。

该 PR 值得快速浏览以了解 NPU 兼容性修复,但设计决策较简单。建议关注 review 中提出的风险,未来开发中考虑实现占位函数以提高代码健壮性。

#20316 fix fused_set_kv_buffer for rope with Ling-v2

原始 PR · 作者 strgrb · 合并时间 2026-03-23 19:20

缺陷修复 重要性 4.00 洞察度 3.00

修复 Ling v2 模型中因 head_dim 与 rotary_dim 不匹配导致的 fused_set_kv_buffer 错误。

对于维护 bailing_moe 模型或涉及 rope kernel 和性能优化的工程师,值得快速浏览以了解条件判断的设计;对于其他用户,可视为常规 bugfix,无需深入分析。

缺陷修复 重要性 7.00 洞察度 6.00

修复NPU上minimaxm2模型准确性bug,准确率从16.5%提升至95.5%。

建议工程师精读`python/sglang/srt/hardware_backend/npu/moe/topk.py`的变更,理解条件调整如何解决准确性问题的设计决策;测试人员可参考新增测试用例扩展其他模型的覆盖。对于性能敏感场景,关注环境变量检查的潜在开销。

缺陷修复 重要性 4.00 洞察度 3.00

修复 NPU 在启用 ASCEND_USE_FIA 时 PD 分离中的 kv_item_lens 计算错误。

对于使用 NPU 和 PD 传输的开发者,建议精读此 PR 以理解 buffer 形状变化对内存计算的影响。变更简单,可作为处理硬件特定模式的示例,但无需深入分析复杂设计决策。重点关注条件分支的逻辑正确性。

缺陷修复 重要性 6.00 洞察度 6.00

修复Ngram同步竞争条件,用条件变量替代忙等待轮询。

对于涉及多线程同步或speculative decoding的开发者,此PR值得精读,可学习从轮询到条件变量的设计权衡;重点关注pending_count_管理和queue.close()行为,建议review相关代码以理解同步逻辑的演变。

参与讨论