Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 13:37 同步状态：空闲下次计划：2026-06-07 14:37

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-27

#21940 [AMD]fix: use CUDA event for targeted draft-to-verify sync in EAGLE overlap

原始 PR · 作者 AMD-yanfeiwang · 合并时间 2026-04-27 12:58

缺陷修复重要性 6.10 洞察度 5.00

修复 EAGLE overlap 中 draft 与 verify 的 GPU 同步问题

值得合并。该修复解决了 AMD 平台 spec v2 数据竞态 bug，且方案在 NVIDIA 平台也验证有效。设计上使用 CUDA event 替代 wait_stream 实现更精确同步，也是正确方向。建议后续考虑 gemini-code-assist 的抽取建议提升代码质量。

bugfixamdspeculative-decoding

#23383 [AMD] Fix Grok-2 nightly: avoid multimodal misdetection from auto-populated vision_config

原始 PR · 作者 bingxche · 合并时间 2026-04-27 12:54

缺陷修复重要性 6.22 洞察度 5.00

修复 Grok-2 因 vision_config 误判多模态导致启动失败

该 PR 是一个高价值的小范围精确修复，PR body 分析清晰、根因定位准确、修改范围可控。适合作为修改配置检测逻辑的参考案例，其风险分析方式也值得学习。无需精读整条 pipeline。

bugfixamdrun-ci

#23793 [docs] Update FA4 support SWA

原始 PR · 作者 zijiexia · 合并时间 2026-04-27 11:40

文档重要性 1.81 洞察度 1.00

更新 FA4 支持 SWA 的文档矩阵

可直接合并，无需进一步审查。

documentation

#23227 perf: optimize PCG inductor path for FP8 models (redo of #21734)

原始 PR · 作者 jasperjiaguo · 合并时间 2026-04-27 11:34

性能优化重要性 7.39 洞察度 6.00

FP8 模型 PCG inductor 路径性能优化

值得精读，特别是 `_reshape_for_qk_norm` 函数中对不同后端的条件分支设计，以及 FP8 量化路径中如何利用 PyTorch 原生操作促进编译器融合。

performancefp8run-ci

#23748 refactor(moe): centralize post-experts all-reduce skip predicate

原始 PR · 作者 ByronHsu · 合并时间 2026-04-27 11:30

重构重要性 7.47 洞察度 5.00

统一 MoE 专家后 all-reduce 跳过条件到集中式 helper

值得精读：展示了通过集中化消除跨文件重复逻辑的优秀实践，特别是为 EP/TP 路径通过参数区分的设计可以复用。对于维护 MoE 并行逻辑的开发者，此 PR 是必读的基线变更。

refactordeepseekmoe

#23785 chore: update CI test est_time values

原始 PR · 作者 sglang-bot · 合并时间 2026-04-27 11:17

基础设施重要性 3.94 洞察度 2.00

更新 CI 测试预估时长以优化并行调度

该 PR 属于纯运维类更新，无设计决策需要关注。但对 CI 调度策略感兴趣的读者可以留意其测量和更新流程，以及 `est_time=0` 的遗留问题。建议后续补充校验逻辑，避免零值。

ciperformance

#20918 [NPU] Support MTP for Qwen3.5

原始 PR · 作者 iridiumine · 合并时间 2026-04-27 10:44

功能重要性 9.18 洞察度 6.00

Ascend NPU 上为 Qwen3.5 添加 MTP 推测解码支持

值得精读，特别是 NPU 注意力后端的架构设计以及如何复用 GPU 端的抽象接口。建议关注作者在 `attention_registry.py` 中的条件路由模式，以及使用 `ExitStack` 管理线程安全环境变量的做法。

npufeatureperformance

#23778 ci(deepseek-v4): add b300/grace-blackwell dev-branch build options

原始 PR · 作者 Fridge003 · 合并时间 2026-04-27 07:44

基础设施重要性 4.33 洞察度 3.00

新增 DeepSeek-V4 开发分支 Docker 构建选项

值得合并，变更清晰且经过充分测试计划。建议其他项目组参考此模式（通过 `branch` 字段和 tag 后缀实现多分支镜像构建）。

deepseekci

第 206 / 357 页 · 共 2853 条

上一页 1 … 204 205 206 207 208 … 357 下一页