Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-20

#23331 [BugFix] Resolve adaptive speculative decoding conflicts for Qwen3.5 (hybrid GDN)

原始 PR · 作者 EanWang211123 · 合并时间 2026-05-20 06:09

缺陷修复重要性 7.84 洞察度 6.00

修复 Qwen3.5 混合 GDN 模型上自适应推测解码的三个冲突问题

建议所有涉及推测解码、混合注意力路由的开发者精读。重点关注： - `_is_full_attn` 的 isinstance 优先设计，它提供比 ID 列表更健壮的分发。 - `effective_max_speculative_num_draft_tokens` 的解耦方式，可作为未来自适应参数分配的模板。 - Review 讨论中关于“保留 API 兼容 vs 全面重构”的权衡决策。 - 重构后的 `adaptive_spec_params.py` 模块划分（候选步骤解析与配置加载分离）提升了可测试性。

bugfixspeculative-decodingmamba

#25465 verify_done: wait not synchronize

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-20 05:57

性能优化重要性 5.23 洞察度 6.00

spec v2 使用 event.wait() 替代 synchronize() 避免 CPU 阻塞

值得精读。展示了 CUDA 事件流同步的最佳实践（stream-level wait vs. CPU synchronize），以及 CI 工作流设计中针对重新触发场景的实战思考。是小型却关键的优化。

speculative-decodingperformanceinfra

#25286 [Gemma4]: Fix FP8 Triton scale layout

原始 PR · 作者 Ratish1 · 合并时间 2026-05-20 05:00

缺陷修复重要性 6.16 洞察度 6.00

修复 Gemma 4 FP8 Triton scale 布局，支持行向量

推荐精读，特别是 `_as_column_scale` 的防御性设计和与入口断言的配合方式。对于需要兼容多种 scale 布局的 kernel 封装，此模式可复用。

bugfixfp8quant

#25729 fix(dsv4): upgrade forward metadata on main stream for large PP size

原始 PR · 作者 whybeyoung · 合并时间 2026-05-20 04:52

缺陷修复重要性 5.85 洞察度 6.00

修复 DeepSeek V4 大 PP 下的竞态 bug

值得精读。虽然只有一行核心改动，但反映了分布式推理中流同步的典型陷阱，设计模式可推广至其他多流模型的 lazy allocation。建议阅读 PR body 中关于 `stream_indexer` 和 `stream_compressor` 的竞态分析。

bugfixdeepseekscheduling

#25756 [Fix] Fix extra uninstall of cutlass packages

原始 PR · 作者 Fridge003 · 合并时间 2026-05-20 01:01

缺陷修复重要性 4.86 洞察度 3.00

移除 CI 中 cutlass 包的额外卸载，修复 LoRA 回归

该 PR 是一个标准的回归回退操作，展示了当临时修复引入更严重问题时如何快速止损。值得关注的是，依赖冲突问题（cutlass 包 extras 机制）并未根本解决，未来可能需要更持久的方案。

bugfixcilora

2026-05-19

#25284 Support Gemma4 Pipeline Parallelism

原始 PR · 作者 yuan-luo · 合并时间 2026-05-19 22:40

功能重要性 8.85 洞察度 7.00

支持 Gemma4 流水线并行

建议精读此 PR，特别是 pp_filter_load_weight 的设计和 forward 中 PP proxy 的处理，这是 SGLang 中标准 PP 适配模式。同时关注 PLE 兼容性讨论，体现了在边界情况下的设计权衡。对于需要部署 Gemma4 在单机多 GPU 环境的团队，应立即采用此变更。

featureschedulingperformance

#25645 [Diffusion] Support parallelism for GLM-Image

原始 PR · 作者 Makcum888e · 合并时间 2026-05-19 22:27

功能重要性 8.54 洞察度 5.00

支持GLM-Image多设备并行生成

值得精读。尤其关注新增的`MAIN_RANK_ONLY_AND_SEND_TO_OTHERS`并行模式设计，它解决了自回归生成阶段在多卡环境中必须保持token一致性的问题。这种“单卡执行后广播”的范式对于混合不同并行策略的流水线很有参考价值。同时，AR阶段与扩散阶段的拆分也体现了模块化思想。

featurediffusionnpu

#25451 Upgrade transformers to 5.8.1

原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-19 22:20

基础设施重要性 3.75 洞察度 2.00

统一升级 transformers 到 5.8.1

建议合并此 PR，但密切关注 CI 测试结果，特别是模型加载与 tokenizer 相关测试；若出现失败，应优先排查 transformers 5.8.1 的 breaking changes。后续可考虑补充针对 transformers 版本的集成测试。

dependenciesinfranpu

第 98 / 357 页 · 共 2850 条

上一页 1 … 96 97 98 99 100 … 357 下一页