Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-04

#26861 [loader] Reduce transient allocations in NVFP4 MoE setup

原始 PR · 作者 yinghai · 合并时间 2026-06-04 12:13

性能优化重要性 7.09 洞察度 5.00

预分配NVFP4 MoE权重张量避免内存碎片

此PR值得精读，尤其是对内存在GPU上管理有优化兴趣的工程师。设计模式：避免临时分配列表再堆叠，而是预分配和重用缓冲区；条件跳过无关工作以减少内存峰值。

performancequantrefactor

#27156 [XPU CI] Expand stage-a and consolidate stage-b tests into stage-a

原始 PR · 作者 arathi-hlab · 合并时间 2026-06-04 12:00

基础设施重要性 5.16 洞察度 4.00

整合XPU CI测试至单个stage以消除重复构建

对于 CI 维护者，此整合策略值得关注，但需注意后续启用 stage-b 时务必实现 Docker 镜像缓存（如 registry push/pull），以避免重复构建。本次更改不涉及核心逻辑，可安全合并。

ciintelxpu

#27192 [refactor] Retire DecodeInputBuffers / PrefillInputBuffers in favor of CudaGraphBufferRegistry

原始 PR · 作者 ch-wan · 合并时间 2026-06-04 11:52

重构重要性 9.00 洞察度 5.00

删除 DecodeInputBuffers/PrefillInputBuffers，统一由注册表管理

建议所有参与 CUDA Graph 相关开发的工程师精读此 PR，特别是 `share_input_buffers_in` 的设计和注册表 `source=` 参数的使用模式。本 PR 是渐进式重构的范例，展示了如何在保持行为不变的前提下逐步淘汰遗留抽象。

refactortestnpu

#21456 [CPU] upgrade dependent torch ver to PT2.12

原始 PR · 作者 ZailiWang · 合并时间 2026-06-04 11:04

基础设施重要性 5.71 洞察度 4.00

升级 CPU 端 PyTorch 系列依赖至 2.12

建议 CPU 平台开发者和依赖管理者阅读该 PR，了解版本升级细节和适配方式。对于仅关注 GPU 的读者，此 PR 无直接参考价值。设计决策方面，迁移 AMX 查询到公开 API 是良好的版本兼容实践。

dependenciescputest

#25308 [multimodal_gen] Preserve _explicit_fields across dataclasses.replace in DiffGenerator

原始 PR · 作者 whn09 · 合并时间 2026-06-04 11:02

缺陷修复重要性 5.61 洞察度 4.00

修复 dataclasses.replace 丢失显式字段属性

该 PR 值得阅读，因为它揭示了 Python `dataclasses.replace` 的一个常见陷阱：动态属性不会被复制。代码简洁、修复专注、测试覆盖好，是高质量的小型修复范例。

diffusionbugfixtest

#27151 [diffusion] Skip unused WanVAE halo send copies

原始 PR · 作者 mickqian · 合并时间 2026-06-04 10:23

重构重要性 7.00 洞察度 6.00

跳过边界 rank 的 WanVAE halo 发送副本

值得精读的实现级优化，展示了如何通过内存格式感知来避免分布式推理中的显式/隐式数据副本。`_halo_memory_format` 的检测模式可推广到其他分布式卷积/注意力模块。

diffusionperformancerefactor

#26881 [UnifiedTree]: Support l3 storage for swa and deepseek v4

原始 PR · 作者 hzh0425 · 合并时间 2026-06-04 10:17

功能重要性 8.78 洞察度 6.00

支持 SWA 和 DeepSeek V4 的 L3 存储

值得精读。该 PR 是 HiCache 多级存储体系的重要拼图，展示了如何将两种特殊注意力组件（SWA 和 DeepSeek V4）集成到统一的 L3 存储架构中。`swa_component.py` 中的锁分离设计和 `mooncake_store.py` 的通用池注册重构具有参考价值。建议关注设计讨论中关于 `is_rank_replicated` 的重命名决策以及 `_page_transfer` 的顺序依赖问题。

hicachekv-cacheattention

#27135 [codex] Fix adaptive metrics test flake

原始 PR · 作者 alphabetc1 · 合并时间 2026-06-04 10:07

缺陷修复重要性 3.68 洞察度 3.00

修复自适应推测测试的随机性失败

该 PR 适合合入以解决 flaky test 问题，但建议跟踪该测试后续是否仍能有效检测 gauge 更新机制回归。如果出现相关 bug，可考虑实现 Codex 建议的重试/轮询方案，在容忍延迟的同时保留严格验证。

speculative-decodingtestbugfix

第 17 / 357 页 · 共 2850 条

上一页 1 … 15 16 17 18 19 … 357 下一页