Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-13 17:27 同步状态:空闲 下次计划:2026-06-13 18:27

PR 列表

更多筛选
2026-05-02
缺陷修复 重要性 6.06 洞察度 5.00

修复 EAGLE cuda graph 因 padding 残留和视图别名导致的 OOB

建议快速合并,该修复解决了实际运行中频繁崩溃的已知问题。值得关注的设计决策:1) 清零填充区域 vs 让下游 gather 感知 padding 的权衡;2) 使用 maybe_detect_oob 代替 clamp/assert 以避免 GPU-CPU 同步。

功能 重要性 5.33 洞察度 5.00

新增环境变量强制FlashInfer使用paged wrapper

该PR改动清晰、聚焦,适合快速合并。值得关注的设计决策是将环境变量读取提前到构造函数并缓存,避免运行时反复读取,体现了良好性能意识。开发者在CUDA graph路径上同步修改也体现了对一致性的重视。

重构 重要性 9.18 洞察度 6.00

重构设备计时器与指标收集器,新增前传占用率指标

值得精读,特别是设备计时器从调度器解耦到模型执行器的模式,以及指标收集器的按类重组方法。对于需要自定义指标的用户,需关注 `emit_constants` 的引入和旧环境变量的移除。

2026-05-01
缺陷修复 重要性 7.06 洞察度 6.00

修复HiMamba墓碑级联删除忽略host引用保护

建议阅读此 PR 以理解多级缓存中 host 引用计数在逐出算法中的关键作用。测试设计值得借鉴:通过模拟 `HiMambaRadixCache` 内部状态(而不依赖完整初始化)来高效验证边界条件。但需注意当前修复仍是临时方案,后续应跟踪 UnifiedRadixTree 迁移进展。

功能 重要性 9.17 洞察度 7.00

PD拆分decode端支持radix缓存,减少KV传输

建议所有从事PD拆分和KV缓存优化的工程师仔细阅读该PR。关键设计决策包括:(1)lock_ref平衡策略及其失败路径处理;(2)将decode prefix handoff迁入kv_manager state以避免调度线程遍历transfer_infos;(3)页面对齐和单调游标维护以防协议错误。该PR为后续扩展(Mooncake支持、批处理eviction、retraction支持)奠定了良好基础。

#24218 Upd: AITER->(#2879)a6bb499

原始 PR · 作者 HaiShaw · 合并时间 2026-05-01 16:26

基础设施 重要性 3.18 洞察度 2.00

更新 ROCm Dockerfile 中 AITER 版本为指定 commit

无需精读,属于常规依赖更新。但团队可考虑后续将重复的版本定义提取为全局 ARG。

参与讨论