Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-26

#26313 Fix stale forward_metadata leak in DP attn unpadded idle batch

原始 PR · 作者 ispobock · 合并时间 2026-05-26 07:04

缺陷修复重要性 6.58 洞察度 7.00

修复 DP Attention 空闲批次 stale metadata 引发的 UAF

这是一个高价值、低风险的关键 bugfix，建议快速合入。根因分析详实，可作为调试复杂并发 bug 的范例。

bugfixdeepseekkv-cache

#22851 [FlashInfer v0.6.10] [RL] [DSv32] [GLM-5] Add `--dsa-topk-backend` and integrate FlashInfer and pytorch topk

原始 PR · 作者 zianglih · 合并时间 2026-05-26 04:08

功能重要性 9.00 洞察度 6.00

DSA TopK 后端可配置，集成 FlashInfer/PyTorch

值得精读。设计上采用策略模式将后端选择与核心逻辑分离，是良好的模块化范例。讨论中关于 CUDA graph 安全和性能优化的取舍有借鉴意义。建议后续熟悉 DSA 注意力机制的工程师关注此 PR 中的设计权衡。

featureperformancerefactor

#26295 Refactor HiCache stack dispatch into strategies

原始 PR · 作者 ispobock · 合并时间 2026-05-26 00:06

重构重要性 8.47 洞察度 6.00

重构 HiCache 堆栈分发为策略模式

hicacherefactortest

2026-05-25

#26281 [CI] Enable EPD CI for EPD architecture enhancements

原始 PR · 作者 ShangmingCai · 合并时间 2026-05-25 23:52

基础设施重要性 4.11 洞察度 3.00

将 EPD CI 测试移至 base-c stage

citestinfra

#25848 [diffusion] Add CFG gating for denoising

原始 PR · 作者 BBuf · 合并时间 2026-05-25 22:57

功能重要性 8.02 洞察度 6.00

CFG 门控复用残差，减少去噪计算

值得精读。关键设计包括：缓存 delta 按模型身份失效确保多模型场景正确、与 cfg_parallel 互斥通过简单条件判断、状态字典统一管理。实现简洁，注释清晰，适合作为扩散推理加速的范例。

diffusionperformancefeature

#25847 [diffusion] Cache fp32 layernorm params

原始 PR · 作者 BBuf · 合并时间 2026-05-25 22:56

性能优化重要性 7.07 洞察度 6.00

缓存 diffusion 中 FP32LayerNorm 参数转换

值得关注缓存失效设计，测试覆盖全面。如使用扩散模型，建议合并。

diffusionperformancetest

#25895 [Diffusion][NPU] Disaggregation diffusion stages support for NPU

原始 PR · 作者 Makcum888e · 合并时间 2026-05-25 18:51

功能重要性 6.81 洞察度 4.00

NPU扩散分解功能启用，抽象平台API

值得精读。该 PR 清晰地展示了如何将 CUDA 硬编码代码迁移为平台无关的抽象，为后续支持更多硬件奠定了基础。`current_platform` 和 `torch.get_device_module()` 的使用模式值得作为跨平台开发的参考。

diffusionnpufeature

#26292 Zero `req_pool_indices` padding in cuda-graph populate

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-25 18:29

缺陷修复重要性 5.49 洞察度 4.00

修复 CUDA Graph 填充行 req_pool 索引脏数据问题

推荐合并。这是一个简洁且正确的 bugfix，与已有的 Eagle draft 做法保持一致。值得关注的是，设计上保留 slot 0 作为全零占位的约定，后续开发中应注意维护此约定。

bugfixperformancescheduling

第 70 / 357 页 · 共 2850 条

上一页 1 … 68 69 70 71 72 … 357 下一页