Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-15

#25378 [Doc] Update MegaMoE usage

原始 PR · 作者 Fridge003 · 合并时间 2026-05-15 17:17

文档 重要性 4.29 洞察度 2.00

更新 DeepSeek V4 部署文档中的 MegaMoE 配置

这是一个小规模的文档更新,不需要深度 review。合并后有助于用户了解 MegaMoE 的可选配置。

测试 重要性 6.78 洞察度 3.00

为 GLM-5 模型添加 HiCache L3 夜间测试

值得阅读以了解如何为指定模型添加 HiCache 夜间测试,尤其是 GSM8KTwoPassMixin 可复用于其他模型,以及 L3 文件后端的启动参数配置。

#24130 fix(sgl-kernel): sm90 compile flashmla failed

原始 PR · 作者 imp2002 · 合并时间 2026-05-15 16:42

缺陷修复 重要性 4.95 洞察度 5.00

修复 FlashMLA 在 Hopper GPU 上编译失败的架构条件问题

值得精读,特别是对 sgl-kernel 的 CMake 架构和多架构条件编译感兴趣的开发者。该 PR 展示了一个清晰的 CMake + C++ 条件编译的协作模式,可作为类似问题的参考。

缺陷修复 重要性 7.60 洞察度 4.00

为 prefill bootstrap 注册添加指数退避重试

该 PR 修复了实际竞态问题,重试实现稳健(指数退避 + 抖动,异常链遍历),测试用例设计完整。建议学习其测试 mock 策略和日志分级设计。对于最终失败是否崩溃的讨论,可后续考虑添加配置项或强制退出选项。

缺陷修复 重要性 7.96 洞察度 6.00

升级 FlashInfer 至 0.6.11.post1 并修复 GPT OSS Triton 内核适配问题

建议阅读。此 PR 展示了升级第三方依赖时如何系统性地进行适配,包括 monkey-patch 权衡、分布式通信参数安全注入、以及库检测增强。对于使用 FlashInfer 或 MXFP4 的团队,理解这里的适配模式有助于应对未来版本变更。

基础设施 重要性 6.29 洞察度 6.00

定时调度触发额外测试层,引入PR awareness注释

值得精读该PR的工作流设计,尤其是`_pr-awareness-comment.yml`中通过HTML注释槽位替换和concurrency group序列化的实践,以及`call-pr-test-extra`的调度策略。对于维护多层级CI的仓库有参考价值。

性能优化 重要性 4.88 洞察度 4.00

调整 Hunyuan3D shape 导出块大小以提升性能

PR 变更简单清晰,基于 profile 数据驱动,收益明确且风险可控,值得合并。对于显存敏感的场景,可考虑保留可配置性。

参与讨论