Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-14 06:00 同步状态：空闲下次计划：2026-06-14 07:00

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-25

#21371 [CI] Fix TestQwen35WithHiCache

原始 PR · 作者 Fridge003 · 合并时间 2026-03-25 15:05

缺陷修复重要性 3.00 洞察度 2.00

修复 HiCache 测试失败，将测试拆分为独立文件以优化 CI 执行。

对于技术管理者，此 PR 无需深入评审，可快速合并以稳定 CI。对于工程师，可作为测试文件重构的简单案例，但无关键技术洞察，不建议精读。建议关注类似 CI 修复 PR（如 #21305）以积累测试稳定性优化经验。

testcibugfix

#20846 Update ascend docs

原始 PR · 作者 amote-i · 合并时间 2026-03-25 14:58

文档重要性 3.00 洞察度 3.00

更新 Ascend NPU 平台文档，删除已弃用参数并添加新功能参数。

对于技术管理者和工程师，此 PR 值得快速浏览以了解文档更新内容，特别是新添加的参数和模型名称变更，但无需深入代码审查。建议关注 `ascend_npu_support_features.md` 中的新参数，确保在使用 Ascend NPU 功能时参考最新文档。

documentationnpuci

#21331 [CI] Rewrite `killall_sglang` as Python with CI/local dual mode

原始 PR · 作者 alisonshao · 合并时间 2026-03-25 14:54

基础设施重要性 6.00 洞察度 5.00

重写 killall_sglang 为 Python 脚本，实现 GPU 范围限制的 CI 清理，避免跨容器进程误杀。

该 PR 值得精读，特别是其 GPU 隔离机制和双模式设计（CI 与本地），对优化多 GPU CI 环境有参考价值。关注关键函数如 _get_target_gpus 和 _kill_pids 的实现细节，以及内存检查逻辑，有助于理解如何处理跨容器资源冲突。

cibugfixrefactor

#21356 [diffusion] doc: update quantization.md

原始 PR · 作者 mickqian · 合并时间 2026-03-25 14:48

文档重要性 3.00 洞察度 2.00

更新扩散模型量化文档，提供更清晰的使用指南。

对于技术管理者，此PR值得快速浏览以了解量化功能的更新；对于工程师，建议阅读新文档`quantization.md`以熟悉量化选项和使用方法，无需精读代码变更。

documentationquantdiffusion

#21370 Update skip condition for TestQwen35PPAccuracy

原始 PR · 作者 ShangmingCai · 合并时间 2026-03-25 14:28

测试重要性 3.00 洞察度 2.00

更新 TestQwen35PPAccuracy 跳过条件以解决 H100 和 AMD 上的精度回归导致的 CI 阻塞。

建议快速浏览以了解 CI 稳定性维护的临时策略，重点关注跳过条件变更背后的权衡决策。

testcibugfix

#21303 Fix RDMA device mapping for non-zero GPU indices in disaggregation tests

原始 PR · 作者 alisonshao · 合并时间 2026-03-25 13:56

缺陷修复重要性 6.00 洞察度 5.00

修复 disaggregation 测试中 RDMA 设备映射错误，避免 CI 失败。

对于涉及 disaggregation 测试和 RDMA 配置的工程师，建议精读此 PR。关注 _validate_ib_devices 函数中错误处理的设计决策，以及 _pick_default_pair 中相对索引映射的实现细节，这些对于理解 GPU-RDMA 设备映射逻辑至关重要。

bugfixtestci

#21040 [AMD][MoRI] Auto-select dispatch quantization type from MoE weight dtype.

原始 PR · 作者 Duyi-Wang · 合并时间 2026-03-25 13:53

功能重要性 5.00 洞察度 4.00

MoRI EP 自动从 MoE 权重 dtype 检测 dispatch quantization 类型，简化用户配置。

建议精读 `moriep.py` 中的 `set_quant_config` 和懒初始化设计，以理解如何实现自动检测和延迟创建 MoRI 操作，这对于学习量化路径选择机制和 AMD MoE 优化有价值。

featurequantdocumentation

#21253 [AMD] Add mha fp8-kv support

原始 PR · 作者 kkHuang-amd · 合并时间 2026-03-25 13:38

功能重要性 5.00 洞察度 5.00

为 AMD 平台的多头注意力添加 FP8 KV 缓存支持，提升推理性能。

建议关注量化优化和注意力机制的开发者精读此 PR。值得关注的设计决策包括：在 forward_extend 中保持 q 精度为 bf16 或 fp16 以优化性能（如 commit 消息所述），以及如何传递缩放因子处理 fp8 缓存。此外，应注意 review 中讨论的未解决问题，如原生 decode kernel 支持。

featureperformancequant

第 383 / 397 页 · 共 3174 条

上一页 1 … 381 382 383 384 385 … 397 下一页