Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-05-13

#24856 Fix TRTLLM MHA routing for draft extend

原始 PR · 作者 YAMY1234 · 合并时间 2026-05-13 06:48

缺陷修复 重要性 5.49 洞察度 4.00

修复 draft extend 路由到 decode kernel 导致的非法内存访问

该 PR 作为紧急 bugfix 值得精读,尤其是涉及注意力后端的路由逻辑的开发者。建议在后续优化中评估是否可在特定条件下(如单 batch 且无 IMA 风险)对 draft extend 也使用 decode kernel 以恢复性能。

#24452 [Dependency] Flashinfer 0.6.8post1 -> 0.6.11

原始 PR · 作者 b8zhong · 合并时间 2026-05-13 05:38

基础设施 重要性 6.74 洞察度 5.00

FlashInfer 0.6.8.post1 升级至 0.6.11,适配新版 API

建议阅读本 PR 作为依赖升级与 API 适配的参考案例,重点关注 flashinfer_comm_fusion.py 中子组传递逻辑的演变以及 fp4_utils.py 中参数化调用方式的变化。

#25015 Fix Eagle draft decode positions

原始 PR · 作者 merrymercy · 合并时间 2026-05-13 05:04

缺陷修复 重要性 5.38 洞察度 4.00

修复 Eagle 投机解码 draft decode 位置错误

建议优先合并。该 PR 修复了一个明显的 off-by-one 错误,逻辑正确,改动量小,风险可控。虽然缺少自动化测试验证,但 PR 作者已通过 debug logging 确认修复。后续应考虑补全 Eagle speculative decoding 的 e2e 测试。

缺陷修复 重要性 5.02 洞察度 5.00

修复 Blackwell 上确定性推理后端顺序错误

该 PR 值得阅读,它揭示了一个因初始化顺序导致的边角 bug,展示了在复杂配置初始化流程中,细节的调用顺序可能引发难以预料的错误。对于需要维护 `__post_init__` 类似初始化流程的开发者,此 PR 是一个良好的警示。

#25076 Fix fused_moe import for non-NPU devices

原始 PR · 作者 polisettyvarma · 合并时间 2026-05-13 04:05

缺陷修复 重要性 5.67 洞察度 3.00

修复非NPU设备上 fused_moe 导入失败问题

此PR是必要的bugfix,逻辑简单,适合快速合入。建议开发者注意类似的条件导入模式,避免全局导入导致跨平台问题。

性能优化 重要性 7.95 洞察度 6.00

STANDALONE 投机解码跳过 hidden_states 端到端捕获

值得精读,尤其是 Optional schema 的设计和 None 守卫的分布模式,可作为类似架构变更的参考。重点关注 eagle_info.py 中的 classmethod 返回类型变更和每个 producer 站点的 capture_hidden_mode 三元表达式。

参与讨论