Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-13 17:27 同步状态：空闲下次计划：2026-06-13 18:27

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-13

#25107 perf(nvfp4): free unused source scales after weight processing

原始 PR · 作者 ch-wan · 合并时间 2026-05-13 07:53

性能优化重要性 6.39 洞察度 6.00

释放NVFP4权重量化中不再使用的源缩放张量

该PR设计清晰，内存收益显著，风险可控，建议合并。值得关注其删除张量的策略和保留`w13_weight_scale_2`/`w2_weight_scale_2`的权衡。

quantperformancekv-cache

#20475 feat: add Crusoe managed inference backend

原始 PR · 作者 acheamponge · 合并时间 2026-05-13 07:23

功能重要性 7.50 洞察度 3.00

新增 Crusoe 托管推理后端

该 PR 设计清晰，适合作为第三方后端集成的参考模式（继承 + LazyImport）。建议合并后补充 CI 可运行的 mock 测试以覆盖回归。

featureinfratest

#25016 [bench] Agentic support for `bench_serving.py`

原始 PR · 作者 kpham-sgl · 合并时间 2026-05-13 07:00

功能重要性 6.52 洞察度 4.00

bench_serving 新增 agentic 多消息轮次支持

建议合并。变更小巧清晰，扩展了基准测试能力，且向下兼容。后续可补充针对新格式的单元测试。

testfeatureinfra

#24856 Fix TRTLLM MHA routing for draft extend

原始 PR · 作者 YAMY1234 · 合并时间 2026-05-13 06:48

缺陷修复重要性 5.49 洞察度 4.00

修复 draft extend 路由到 decode kernel 导致的非法内存访问

该 PR 作为紧急 bugfix 值得精读，尤其是涉及注意力后端的路由逻辑的开发者。建议在后续优化中评估是否可在特定条件下（如单 batch 且无 IMA 风险）对 draft extend 也使用 decode kernel 以恢复性能。

bugfixattentionblackwell

#24452 [Dependency] Flashinfer 0.6.8post1 -> 0.6.11

原始 PR · 作者 b8zhong · 合并时间 2026-05-13 05:38

基础设施重要性 6.74 洞察度 5.00

FlashInfer 0.6.8.post1 升级至 0.6.11，适配新版 API

建议阅读本 PR 作为依赖升级与 API 适配的参考案例，重点关注 flashinfer_comm_fusion.py 中子组传递逻辑的演变以及 fp4_utils.py 中参数化调用方式的变化。

dependenciesinfrabugfix

#25015 Fix Eagle draft decode positions

原始 PR · 作者 merrymercy · 合并时间 2026-05-13 05:04

缺陷修复重要性 5.38 洞察度 4.00

修复 Eagle 投机解码 draft decode 位置错误

建议优先合并。该 PR 修复了一个明显的 off-by-one 错误，逻辑正确，改动量小，风险可控。虽然缺少自动化测试验证，但 PR 作者已通过 debug logging 确认修复。后续应考虑补全 Eagle speculative decoding 的 e2e 测试。

bugfixspeculative-decodingperformance

#21450 [NVIDIA] Deterministic inference backend order on Blackwell

原始 PR · 作者 kaixih · 合并时间 2026-05-13 04:35

缺陷修复重要性 5.02 洞察度 5.00

修复 Blackwell 上确定性推理后端顺序错误

该 PR 值得阅读，它揭示了一个因初始化顺序导致的边角 bug，展示了在复杂配置初始化流程中，细节的调用顺序可能引发难以预料的错误。对于需要维护 `__post_init__` 类似初始化流程的开发者，此 PR 是一个良好的警示。

bugfixnvidiaperformance

#25076 Fix fused_moe import for non-NPU devices

原始 PR · 作者 polisettyvarma · 合并时间 2026-05-13 04:05

缺陷修复重要性 5.67 洞察度 3.00

修复非NPU设备上 fused_moe 导入失败问题

此PR是必要的bugfix，逻辑简单，适合快速合入。建议开发者注意类似的条件导入模式，避免全局导入导致跨平台问题。

bugfixinfrarun-ci

第 178 / 396 页 · 共 3165 条

上一页 1 … 176 177 178 179 180 … 396 下一页