Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-05-14

#24858 multi_layer_eagle: add tracing hooks

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-14 06:29

功能 重要性 5.99 洞察度 3.00

multi-layer eagle 添加追踪钩子

值得合并,改动明确、风险低,提升了 multi-layer eagle 的可观测性。

功能 重要性 9.12 洞察度 7.00

支持 MLA 注意力 q_b_proj 和 kv_b_proj LoRA 适配器

值得精读。特别是 SGMM Triton 内核的设计——将 B@A 分解为两步,避免物化大矩阵,同时兼容两种 LoRA 后端(Triton/csgmv)的 segment-routing 方案。此外,对 fused_qkv_a_proj_with_mqa 快速路径的 LoRA 保护也是一个典型模式。建议未来若添加测试覆盖率,应优先覆盖混合秩、零 slot、和 csgmv 后端场景。

功能 重要性 9.18 洞察度 6.00

为 GPT-OSS 和 DeepSeek-V4 添加 FlashInfer SM90 MXFP4 MoE 后端

本 PR 值得所有关注 MoE 推理性能的工程师仔细阅读。其设计展示了如何将外部高效内核(FlashInfer)集成到现有量化框架中,并保持与 Marlin 的兼容性。关键决策包括:通过 `_fi_kernel` 区分内核版本、在权重加载时预处理、利用 PD 分离策略发挥各自优势。Review 中关于正确性参数的讨论也具有实践参考价值。建议在 H100/H200 上测试 PD 场景。

基础设施 重要性 5.07 洞察度 4.00

合并 sgl-kernel 构建工作流至可复用模板

该 PR 是 CI 重构的优秀范例,尤其推荐关注其 6 层等价审计方法,可作为后续类似重构的参考。对于不直接参与 CI 维护的工程师,无需深究细节。

缺陷修复 重要性 3.36 洞察度 5.00

修复PR测试中矩阵兄弟并发冲突

本 PR 是一次精巧的 CI 配置 bugfix,值得所有涉及矩阵并发场景的仓库参考。建议精读 PR body 中对 concurrency group 行为的解释,以及如何通过追加 `matrix.name` 解决兄弟冲突。对于维护高并发 CI 的团队,此模式可作为最佳实践。

参与讨论