修复flashinfer_trtllm中未选中专家被错误填充
此PR虽小但修复了一个关键的正确性问题。建议合并,并考虑在相关测试中增加对填充token(-1 expert id)的验证,确保未来不会回归。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复flashinfer_trtllm中未选中专家被错误填充
此PR虽小但修复了一个关键的正确性问题。建议合并,并考虑在相关测试中增加对填充token(-1 expert id)的验证,确保未来不会回归。
将 expert_mask_gpu 所有权从 FusedMoE 层迁移到 StandardDispatcher
值得精读以学习如何识别和修复抽象泄漏。设计原则清晰,适合作为代码重构的范例。
原始 PR · 作者 merrymercy · 合并时间 2026-04-24 07:51
CUDA图捕获前预置SWA缓存位置,避免回退到逐层翻译路径。
值得精读。PR 展示了如何在 CUDA 图捕获中通过预置缓冲区强制走快速路径的典型手法,对理解 CUDA 图捕获与 KV 缓存交互有参考价值。建议关注后续的类型清理 PR。
原始 PR · 作者 merrymercy · 合并时间 2026-04-24 07:47
修复MoE no_combine模式下down projection错误应用router权重
建议精读。这是一个典型的bug fix,展示了MoE实现中router权重应用与combine步骤的交互细节。虽然是小改动,但涉及对MoE计算图的理解,对于维护MoE相关代码的工程师有参考价值。同时可以关注如何在测试中覆盖no_combine模式。
原始 PR · 作者 sundar24295s · 合并时间 2026-04-24 07:44
为Engine API暴露子进程PID列表
值得精读,特别是对于需要直接集成SGLang Engine且需要进程健康监控的团队;设计简单,无副作用。
将GB200夜间测试日志导出到S3存储
本PR属于基础设施增强,逻辑清晰,风险较低。值得关注的是其路径设计模式,可复用于其他CI日志导出场景。建议合并。
原始 PR · 作者 sglang-bot · 合并时间 2026-04-24 06:23
将flashinfer依赖版本从0.6.7.post3升级到0.6.8.post1
该PR是常规的依赖升级,值得关注的是自动化的版本更新流程(由sglang-bot自动创建)。阅读价值较低,但可以作为了解项目依赖管理方式的参考。建议关注flashinfer 0.6.8.post1的release notes以了解具体变更。
原始 PR · 作者 jasperjiaguo · 合并时间 2026-04-24 05:52
修复#23497引入的cu129轮子标签缺失和安装脚本pipefail问题
作为#23497的跟进修复,本PR改动小但关键,建议审阅者关注pipefall调优模式的使用。修改内容合理且PR描述清晰,可直接合并。
参与讨论