Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-13

#22536 [Disagg][NIXL] Add staging buffer support for heterogeneous TP KV transfer

原始 PR · 作者 YAMY1234 · 合并时间 2026-05-13 19:54

功能重要性 8.96 洞察度 7.00

NIXL 后端新增 staging buffer 支持异构 TP 批量 KV 传输

此 PR 重构了 NIXL 的 KV 传输路径，引入 staging buffer 后性能提升显著。代码抽象值得学习，尤其是 `register_fn` 回调模式。建议 NIXL 用户升级并启用 staging buffer。mooncake 用户无需改动，但可从统一抽象中受益。

featurekv-cacheperformance

#24973 [CI] Add DSV4 Flash disaggregation test

原始 PR · 作者 ShangmingCai · 合并时间 2026-05-13 18:42

测试重要性 7.10 洞察度 2.00

新增 DSV4 Flash 分离式推理 CI 测试

本 PR 结构清晰、注释简洁，适合作为编写分离式端到端测试的范例。建议关注 GSM8K 阈值在长期运行中的稳定性，若出现 flaky 可调整为 0.90。另外，TP/DP 配比的设计选择值得注意：在 8 卡环境下用 4+4 分离而非 8+0 或 1+1，体现了对 DP 注意力测试覆盖的刻意倾斜。

testcideepseek

#24987 [AMD] Run jit kernel PR test through run_suite.py register mechanism

原始 PR · 作者 yctseng0211 · 合并时间 2026-05-13 17:57

基础设施重要性 3.53 洞察度 4.00

AMD JIT kernel 测试接入 run_suite.py 注册机制

建议合并。这是一次良好的基础设施统一化变更，提高了可维护性和可扩展性。

amdrun-cijit-kernel

#24125 [AMD] Skip redundant CatArrayBatchedCopy in GLM-5 NSA TileLang decode

原始 PR · 作者 Jacob0226 · 合并时间 2026-05-13 17:55

性能优化重要性 7.11 洞察度 7.00

跳过GLM-5 NSA TileLang解码中冗余的CatArrayBatchedCopy

值得精读。该 PR 展示了如何通过分析数据流中的冗余操作实现零成本优化，并通过精密的条件控制确保向后兼容。设计决策（零拷贝视图、gated cat-skip、仅限HIP）可作为同类优化工程的范例。重点关注 `forward_mla.py` 中 `forward_absorb_core` 的 decode 分支和 `nsa_backend.py` 中 `forward_decode` 的 `q_all` 传递逻辑。

amdperformancerun-ci

#23562 [AMD] Enable preshuffle paged MQA and page_size=64 for NSA indexer

原始 PR · 作者 1am9trash · 合并时间 2026-05-13 17:33

功能重要性 6.96 洞察度 5.00

AMD NSA indexer 启用 preshuffle paged MQA 和 page_size=64，提升高并发性能

该 PR 值得精读，特别是 preshuffle 布局与 page_size 配合的设计思路，以及如何通过包装 aiter 和 Triton 两套实现来保持兼容性。建议重点关注 Triton fallback 的风险，并在未来 PR 中补充相应测试。

amdperformancefeature

#25104 Add jasonjk-park and charlotte12l to CI_PERMISSIONS.json

原始 PR · 作者 merrymercy · 合并时间 2026-05-13 16:51

基础设施重要性 2.94 洞察度 1.00

新增两位贡献者到 CI 权限名单

变更简单且明确，可以直接合并。无需精读。

infraci

#21537 [NPU] recover accuracy for gemma3-4b-it from 54% to 72% (reduced by transformer5.3)

原始 PR · 作者 McZyWu · 合并时间 2026-05-13 16:46

缺陷修复重要性 5.69 洞察度 4.00

修复 Gemma3 NPU 因 transformers 升级导致的精度下降

值得合并：这是一个精准的 bugfix，以极小改动（+2/-1）修复了因上游依赖变更导致的精度回归，并提供了明确的测试数据证明改善。建议在类似模型变更中同步检查 transformers 5.x 的兼容性。

npubugfixdeepseek

#20930 feat(multimodal_gen): plumb max_sequence_length via diffusers_kwargs

原始 PR · 作者 Religious-J · 合并时间 2026-05-13 16:32

功能重要性 6.76 洞察度 5.00

通过 diffusers_kwargs 传递 max_sequence_length 控制文本编码长度

值得精读，特别是如何通过 `is_flux_v1()` 方法将模型特殊逻辑封装到 PipelineConfig 中，避免在核心编码阶段做 model-specific 判断。设计决策平衡了通用性和正确性。建议添加测试覆盖主要 pipeline 的 `max_sequence_length` 路径。

diffusionfeaturerun-ci

第 135 / 357 页 · 共 2850 条

上一页 1 … 133 134 135 136 137 … 357 下一页