multi-layer eagle 添加追踪钩子
值得合并,改动明确、风险低,提升了 multi-layer eagle 的可观测性。
SGLang is a high-performance serving framework for large language models and multimodal models.
multi-layer eagle 添加追踪钩子
值得合并,改动明确、风险低,提升了 multi-layer eagle 的可观测性。
原始 PR · 作者 sglang-bot · 合并时间 2026-05-14 06:17
为 vLLM 移植文件添加 SPDX 版权头
该 PR 属于纯合规性变更,无技术决策需要重点审视。建议快速合并,以扫清许可合规风险。
支持 MLA 注意力 q_b_proj 和 kv_b_proj LoRA 适配器
值得精读。特别是 SGMM Triton 内核的设计——将 B@A 分解为两步,避免物化大矩阵,同时兼容两种 LoRA 后端(Triton/csgmv)的 segment-routing 方案。此外,对 fused_qkv_a_proj_with_mqa 快速路径的 LoRA 保护也是一个典型模式。建议未来若添加测试覆盖率,应优先覆盖混合秩、零 slot、和 csgmv 后端场景。
为 GPT-OSS 和 DeepSeek-V4 添加 FlashInfer SM90 MXFP4 MoE 后端
本 PR 值得所有关注 MoE 推理性能的工程师仔细阅读。其设计展示了如何将外部高效内核(FlashInfer)集成到现有量化框架中,并保持与 Marlin 的兼容性。关键决策包括:通过 `_fi_kernel` 区分内核版本、在权重加载时预处理、利用 PD 分离策略发挥各自优势。Review 中关于正确性参数的讨论也具有实践参考价值。建议在 H100/H200 上测试 PD 场景。
原始 PR · 作者 alphabetc1 · 合并时间 2026-05-14 04:54
移除死代码 convert_to_bigram_key
可直接合并。该 PR 是常规清理,但值得留意的是此类删除最好附带 grep 验证结果(已包含)。可作为代码整洁的范例。
合并 sgl-kernel 构建工作流至可复用模板
该 PR 是 CI 重构的优秀范例,尤其推荐关注其 6 层等价审计方法,可作为后续类似重构的参考。对于不直接参与 CI 维护的工程师,无需深究细节。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-14 04:25
修复PR测试中矩阵兄弟并发冲突
本 PR 是一次精巧的 CI 配置 bugfix,值得所有涉及矩阵并发场景的仓库参考。建议精读 PR body 中对 concurrency group 行为的解释,以及如何通过追加 `matrix.name` 解决兄弟冲突。对于维护高并发 CI 的团队,此模式可作为最佳实践。
GB DeepEP 源码从个人 fork 切换到上游 hybrid-ep
建议合并:变更透明、经过验证,且将维护责任转移到上游官方代码库,是基础设施的健康演进。
参与讨论