Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-13 17:27 同步状态:空闲 下次计划:2026-06-13 18:27

PR 列表

更多筛选
2026-05-13
性能优化 重要性 6.39 洞察度 6.00

释放NVFP4权重量化中不再使用的源缩放张量

该PR设计清晰,内存收益显著,风险可控,建议合并。值得关注其删除张量的策略和保留`w13_weight_scale_2`/`w2_weight_scale_2`的权衡。

#20475 feat: add Crusoe managed inference backend

原始 PR · 作者 acheamponge · 合并时间 2026-05-13 07:23

功能 重要性 7.50 洞察度 3.00

新增 Crusoe 托管推理后端

该 PR 设计清晰,适合作为第三方后端集成的参考模式(继承 + LazyImport)。建议合并后补充 CI 可运行的 mock 测试以覆盖回归。

功能 重要性 6.52 洞察度 4.00

bench_serving 新增 agentic 多消息轮次支持

建议合并。变更小巧清晰,扩展了基准测试能力,且向下兼容。后续可补充针对新格式的单元测试。

#24856 Fix TRTLLM MHA routing for draft extend

原始 PR · 作者 YAMY1234 · 合并时间 2026-05-13 06:48

缺陷修复 重要性 5.49 洞察度 4.00

修复 draft extend 路由到 decode kernel 导致的非法内存访问

该 PR 作为紧急 bugfix 值得精读,尤其是涉及注意力后端的路由逻辑的开发者。建议在后续优化中评估是否可在特定条件下(如单 batch 且无 IMA 风险)对 draft extend 也使用 decode kernel 以恢复性能。

#24452 [Dependency] Flashinfer 0.6.8post1 -> 0.6.11

原始 PR · 作者 b8zhong · 合并时间 2026-05-13 05:38

基础设施 重要性 6.74 洞察度 5.00

FlashInfer 0.6.8.post1 升级至 0.6.11,适配新版 API

建议阅读本 PR 作为依赖升级与 API 适配的参考案例,重点关注 flashinfer_comm_fusion.py 中子组传递逻辑的演变以及 fp4_utils.py 中参数化调用方式的变化。

#25015 Fix Eagle draft decode positions

原始 PR · 作者 merrymercy · 合并时间 2026-05-13 05:04

缺陷修复 重要性 5.38 洞察度 4.00

修复 Eagle 投机解码 draft decode 位置错误

建议优先合并。该 PR 修复了一个明显的 off-by-one 错误,逻辑正确,改动量小,风险可控。虽然缺少自动化测试验证,但 PR 作者已通过 debug logging 确认修复。后续应考虑补全 Eagle speculative decoding 的 e2e 测试。

缺陷修复 重要性 5.02 洞察度 5.00

修复 Blackwell 上确定性推理后端顺序错误

该 PR 值得阅读,它揭示了一个因初始化顺序导致的边角 bug,展示了在复杂配置初始化流程中,细节的调用顺序可能引发难以预料的错误。对于需要维护 `__post_init__` 类似初始化流程的开发者,此 PR 是一个良好的警示。

#25076 Fix fused_moe import for non-NPU devices

原始 PR · 作者 polisettyvarma · 合并时间 2026-05-13 04:05

缺陷修复 重要性 5.67 洞察度 3.00

修复非NPU设备上 fused_moe 导入失败问题

此PR是必要的bugfix,逻辑简单,适合快速合入。建议开发者注意类似的条件导入模式,避免全局导入导致跨平台问题。

参与讨论