Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 09:10 同步状态：空闲下次计划：2026-06-07 10:10

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-07

#27460 Fix MLA EAGLE draft CUDA-graph `kv_indices` under-allocation for `topk > 1`

原始 PR · 作者 hnyls2002 · 合并时间 2026-06-07 07:28

缺陷修复重要性 5.68 洞察度 4.00

修复 MLA EAGLE draft CUDA-graph kv_indices 欠分配

建议合并并安排 review。此 PR 是一个防御性修复，代码简洁清晰，风险极低，值得快速合入以在未来 `topk>1` 支持落地前消除一个已知的静默损坏点。

bugfixspeculative-decodingkv-cache

#27461 Enable async-assert invariant probes by default in CI

原始 PR · 作者 hnyls2002 · 合并时间 2026-06-07 07:23

基础设施重要性 5.43 洞察度 4.00

在 CI 中默认启用异步断言探测

该 PR 值得阅读，尤其是对负责 CI 基础设施和测试策略的工程师。它展示了如何通过环境变量集中管控运行时检查，并在保持零同步开销的前提下扩大验证覆盖。设计上清晰分离了 CUDA/AMD 与 NPU/MUSA 的配置，未来如果 NPU/MUSA 支持 `torch._assert_async`，只需简单添加环境变量即可。

ciinfratest

#27364 [perf] reduce radix cache match overhead by changing the match algorithm

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-06-07 06:40

性能优化重要性 6.80 洞察度 6.00

指数搜索优化 RadixCache.match 减少逐元素比较

值得精读。指数搜索 + 二分查找的模式通用性强，可推广到其他线性扫描场景。PR 对类型兼容性问题处理果断，测试完备，可放心合入。建议后续关注 million-token 级别的实测数据。

performancekv-cachetest

#27458 [spec] Consolidate the per-decode KV alloc reserve into one helper

原始 PR · 作者 hnyls2002 · 合并时间 2026-06-07 05:58

重构重要性 7.95 洞察度 5.00

统一 spec decode KV 分配预留计算并移动 helper

建议精读，因为展示了如何通过集中化计算消除重复逻辑并解决导入循环，是一个教科书级的纯重构案例。特别关注 `pr_fix_toggle.py` 中 revert target 的迁移方式。

refactorspeculative-decodingkv-cache

#27457 ci: show partition fit window as a date range in the step summary

原始 PR · 作者 hnyls2002 · 合并时间 2026-06-07 05:39

基础设施重要性 3.83 洞察度 3.00

CI 分区窗口显示为日期范围

小范围基础设施改进，值得合并。建议后续考虑添加日期解析异常保护以增强健壮性。

ciinfraobservability

#27407 Route the eager forward path through the CUDA graph input-buffer registry

原始 PR · 作者 ch-wan · 合并时间 2026-06-07 05:35

重构重要性 9.08 洞察度 7.00

eager 前向路径通过 CUDA graph 缓冲注册表路由

值得精读，尤其是 extract_buffer 的 None 携带逻辑和 computed slot 暴露策略，以及如何通过参数化构建函数支持不同前向路径。提供了清晰的注释和单元测试。建议部署者评估 decode 延迟并在需要时启用 SGLANG_EAGER_INPUT_NO_COPY。

refactortestperformance

#26972 Spec v2 tree drafting (topk>1) with page_size>1

原始 PR · 作者 hnyls2002 · 合并时间 2026-06-07 03:00

功能重要性 7.95 洞察度 6.00

扩展EAGLE spec v2树推理支持page>1+topk>1

建议所有涉及speculative decoding的开发者和reviewer精读。关键设计决策包括：孔状布局理由、前缀复制方案、行宽保护与failure模式选择。值得关注的设计模式：用always-on CPU断言代替难诊断的GPU错误，是防守型编程的良好范例。

speculative-decodingkv-cachebugfix

#27451 Classify malformed-multimodal rejects as invalid_request

原始 PR · 作者 merrymercy · 合并时间 2026-06-07 01:19

缺陷修复重要性 5.92 洞察度 4.00

结构化多模态错误响应与客户端断开处理

值得精读，展示了如何通过异常分层与请求状态检查来提升 API 的健壮性和客户端体验。

bugfixmultimodalobservability

第 1 / 356 页 · 共 2843 条

1 2 3 4 5 … 356 下一页