Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-06-06
缺陷修复 重要性 6.26 洞察度 6.00

修复 fa3 EAGLE draft-decode page_table scatter OOB

值得合并与精读。本 PR 修复了一个隐蔽的静默内存损坏 bug,展示了 cuda-graph 元数据构造中一个微妙的维度不匹配问题。建议关注:1) `cache_loc` 切片与 `page_size == 1` 分支的对齐设计;2) 始终启用断言作为安全网的做法;3) revert 开关的注册方式,这是一种低成本 A/B 调试基础设施。

功能 重要性 9.00 洞察度 5.00

新增 Apertus2509 工具调用与推理块解析器

该 PR 设计思路清晰,遵循了现有解析器框架的扩展模式,是添加新模型格式的良好范例。建议阅读 `apertus2509_detector.py` 和 `reasoning_parser.py` 的源码,了解如何集成 tool call 与 reasoning 解析。对于需要支持相似自定义格式的开发者,该 PR 提供了可复用的模式。

#27419 fix test_qwen3_next_models flaky

原始 PR · 作者 hanming-lu · 合并时间 2026-06-06 14:26

缺陷修复 重要性 4.01 洞察度 2.00

调大 KL 散度阈值修复测试 flaky

变更简单直接,无需精读。可作为测试稳定性维护的参考案例。

#26588 Optimize Gemma4 H200 MoE and extend attention

原始 PR · 作者 BBuf · 合并时间 2026-06-06 14:14

性能优化 重要性 7.16 洞察度 7.00

优化 Gemma4 H200 MoE 与 extend attention 性能

推荐精读。尤其注意 kernel dedup 设计方法和 BF16 精度分析。对于 Gemma4 部署有直接收益;对编写数值稳定的 Triton kernel 有参考价值。

#24756 Optimize ngram decode token table update

原始 PR · 作者 BBuf · 合并时间 2026-06-06 14:13

性能优化 重要性 7.94 洞察度 6.00

新增 ngram decode 专用快速更新 kernel

值得精读,展示如何通过简化 kernel 假设实现数十倍性能提升。尤其关注 review 中对 int64 溢出的讨论——这是一个在长上下文场景中容易被忽略的缺陷。

文档 重要性 7.02 洞察度 5.00

在cookbook中更新Xeon CPU支持信息

建议阅读该 PR,特别是 `disabledWhen` 和 `condition()` 的设计模式,展示了如何优雅地组织硬件依赖的 UI 选项。同时注意交叉检查多个模型页面的一致性,确保命令参数的准确性。

参与讨论