Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-20
缺陷修复 重要性 7.84 洞察度 6.00

修复 Qwen3.5 混合 GDN 模型上自适应推测解码的三个冲突问题

建议所有涉及推测解码、混合注意力路由的开发者精读。重点关注: - `_is_full_attn` 的 isinstance 优先设计,它提供比 ID 列表更健壮的分发。 - `effective_max_speculative_num_draft_tokens` 的解耦方式,可作为未来自适应参数分配的模板。 - Review 讨论中关于“保留 API 兼容 vs 全面重构”的权衡决策。 - 重构后的 `adaptive_spec_params.py` 模块划分(候选步骤解析与配置加载分离)提升了可测试性。

#25465 verify_done: wait not synchronize

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-20 05:57

性能优化 重要性 5.23 洞察度 6.00

spec v2 使用 event.wait() 替代 synchronize() 避免 CPU 阻塞

值得精读。展示了 CUDA 事件流同步的最佳实践(stream-level wait vs. CPU synchronize),以及 CI 工作流设计中针对重新触发场景的实战思考。是小型却关键的优化。

#25286 [Gemma4]: Fix FP8 Triton scale layout

原始 PR · 作者 Ratish1 · 合并时间 2026-05-20 05:00

缺陷修复 重要性 6.16 洞察度 6.00

修复 Gemma 4 FP8 Triton scale 布局,支持行向量

推荐精读,特别是 `_as_column_scale` 的防御性设计和与入口断言的配合方式。对于需要兼容多种 scale 布局的 kernel 封装,此模式可复用。

缺陷修复 重要性 5.85 洞察度 6.00

修复 DeepSeek V4 大 PP 下的竞态 bug

值得精读。虽然只有一行核心改动,但反映了分布式推理中流同步的典型陷阱,设计模式可推广至其他多流模型的 lazy allocation。建议阅读 PR body 中关于 `stream_indexer` 和 `stream_compressor` 的竞态分析。

#25756 [Fix] Fix extra uninstall of cutlass packages

原始 PR · 作者 Fridge003 · 合并时间 2026-05-20 01:01

缺陷修复 重要性 4.86 洞察度 3.00

移除 CI 中 cutlass 包的额外卸载,修复 LoRA 回归

该 PR 是一个标准的回归回退操作,展示了当临时修复引入更严重问题时如何快速止损。值得关注的是,依赖冲突问题(cutlass 包 extras 机制)并未根本解决,未来可能需要更持久的方案。

2026-05-19

#25284 Support Gemma4 Pipeline Parallelism

原始 PR · 作者 yuan-luo · 合并时间 2026-05-19 22:40

功能 重要性 8.85 洞察度 7.00

支持 Gemma4 流水线并行

建议精读此 PR,特别是 pp_filter_load_weight 的设计和 forward 中 PP proxy 的处理,这是 SGLang 中标准 PP 适配模式。同时关注 PLE 兼容性讨论,体现了在边界情况下的设计权衡。对于需要部署 Gemma4 在单机多 GPU 环境的团队,应立即采用此变更。

功能 重要性 8.54 洞察度 5.00

支持GLM-Image多设备并行生成

值得精读。尤其关注新增的`MAIN_RANK_ONLY_AND_SEND_TO_OTHERS`并行模式设计,它解决了自回归生成阶段在多卡环境中必须保持token一致性的问题。这种“单卡执行后广播”的范式对于混合不同并行策略的流水线很有参考价值。同时,AR阶段与扩散阶段的拆分也体现了模块化思想。

#25451 Upgrade transformers to 5.8.1

原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-19 22:20

基础设施 重要性 3.75 洞察度 2.00

统一升级 transformers 到 5.8.1

建议合并此 PR,但密切关注 CI 测试结果,特别是模型加载与 tokenizer 相关测试;若出现失败,应优先排查 transformers 5.8.1 的 breaking changes。后续可考虑补充针对 transformers 版本的集成测试。

参与讨论