Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-02

#24197 Refactor device timer, clean up metrics collector, and add fwd occupancy metric

原始 PR · 作者 merrymercy · 合并时间 2026-05-02 01:25

重构重要性 9.18 洞察度 6.00

重构设备计时器与指标收集器，新增前传占用率指标

值得精读，特别是设备计时器从调度器解耦到模型执行器的模式，以及指标收集器的按类重组方法。对于需要自定义指标的用户，需关注 `emit_constants` 的引入和旧环境变量的移除。

refactorperformanceobservability

2026-05-01

#23696 [BugFix][HiMamba] Fix host-protected node deletion in HiMamba tombstone del

原始 PR · 作者 icepoint666 · 合并时间 2026-05-01 21:57

缺陷修复重要性 7.06 洞察度 6.00

修复HiMamba墓碑级联删除忽略host引用保护

建议阅读此 PR 以理解多级缓存中 host 引用计数在逐出算法中的关键作用。测试设计值得借鉴：通过模拟 `HiMambaRadixCache` 内部状态（而不依赖完整初始化）来高效验证边界条件。但需注意当前修复仍是临时方案，后续应跟踪 UnifiedRadixTree 迁移进展。

bugfixhicachetest

#19746 [P/D disagg] - support decode side radix cache

原始 PR · 作者 ishandhanani · 合并时间 2026-05-01 21:55

功能重要性 9.17 洞察度 7.00

PD拆分decode端支持radix缓存，减少KV传输

建议所有从事PD拆分和KV缓存优化的工程师仔细阅读该PR。关键设计决策包括：（1）lock_ref平衡策略及其失败路径处理；（2）将decode prefix handoff迁入kv_manager state以避免调度线程遍历transfer_infos；（3）页面对齐和单调游标维护以防协议错误。该PR为后续扩展（Mooncake支持、批处理eviction、retraction支持）奠定了良好基础。

featureschedulingperformance

#24192 [spec decoding] add tests for chain-style multi layer eagle + return_logprob

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-01 16:48

测试重要性 6.25 洞察度 4.00

新增 chain MTP + return_logprob 测试

建议关注该测试方法的设计模式：通过两轮请求（decode vs. prefill）对比 logprobs，是一种系统性验证 spec decode 正确性的手段。此测试可作为类似功能测试的参考。

testspeculative-decodingrun-ci

#24218 Upd: AITER->(#2879)a6bb499

原始 PR · 作者 HaiShaw · 合并时间 2026-05-01 16:26

基础设施重要性 3.18 洞察度 2.00

更新 ROCm Dockerfile 中 AITER 版本为指定 commit

无需精读，属于常规依赖更新。但团队可考虑后续将重复的版本定义提取为全局 ARG。

amddockerdependencies

#24190 Bypass torch.cuda.use_mem_pool generator-CM in SymmetricMemoryContext

原始 PR · 作者 ch-wan · 合并时间 2026-05-01 16:25

重构重要性 6.01 洞察度 6.00

绕过 torch.cuda.use_mem_pool 上下文管理器，直接调用底层 C API

值得精读。该 PR 展示了如何通过绕过高层 API 来简化状态管理，是典型的性能优化和代码简化实践。但应关注 PyTorch 私有 API 的兼容性。

refactorperformancescheduling

#24138 [SWA] Ensure we use pre-computed SWA cache location during prefill

原始 PR · 作者 merrymercy · 合并时间 2026-05-01 15:01

缺陷修复重要性 5.97 洞察度 5.00

修复 prefill 阶段 SWA cache location 被忽略问题

建议精读。此 PR 展示了一个典型的“使用预计算值替代重复计算”的优化模式，同时也体现了 review 中发现的“直接引用状态属性 vs 通过 forward_batch 传递”的设计陷阱。对于维护 SWA 或类似缓存机制的同学，该变更和讨论值得学习。

bugfixperformancerun-ci

#24083 Add benchmark/hicache/bench_warm_cache.py for exact warm-cache shared-prefix benchmarking

原始 PR · 作者 clintg6 · 合并时间 2026-05-01 14:48

功能重要性 8.89 洞察度 5.00

新增精确控制共享前缀比例的 warm-cache 基准测试

值得精读，尤其是设计精确控制变量的基准测试的方法。它展示了如何在不改动现有代码的前提下，为特定研究场景补充专用工具，其与现有基准对齐的指标设计也值得参考。

benchmarkhicacheperformance

第 185 / 357 页 · 共 2850 条

上一页 1 … 183 184 185 186 187 … 357 下一页