更新 DeepSeek V4 部署文档中的 MegaMoE 配置
这是一个小规模的文档更新,不需要深度 review。合并后有助于用户了解 MegaMoE 的可选配置。
SGLang is a high-performance serving framework for large language models and multimodal models.
更新 DeepSeek V4 部署文档中的 MegaMoE 配置
这是一个小规模的文档更新,不需要深度 review。合并后有助于用户了解 MegaMoE 的可选配置。
为 GLM-5 模型添加 HiCache L3 夜间测试
值得阅读以了解如何为指定模型添加 HiCache 夜间测试,尤其是 GSM8KTwoPassMixin 可复用于其他模型,以及 L3 文件后端的启动参数配置。
修复 FlashMLA 在 Hopper GPU 上编译失败的架构条件问题
值得精读,特别是对 sgl-kernel 的 CMake 架构和多架构条件编译感兴趣的开发者。该 PR 展示了一个清晰的 CMake + C++ 条件编译的协作模式,可作为类似问题的参考。
为 prefill bootstrap 注册添加指数退避重试
该 PR 修复了实际竞态问题,重试实现稳健(指数退避 + 抖动,异常链遍历),测试用例设计完整。建议学习其测试 mock 策略和日志分级设计。对于最终失败是否崩溃的讨论,可后续考虑添加配置项或强制退出选项。
升级 FlashInfer 至 0.6.11.post1 并修复 GPT OSS Triton 内核适配问题
建议阅读。此 PR 展示了升级第三方依赖时如何系统性地进行适配,包括 monkey-patch 权衡、分布式通信参数安全注入、以及库检测增强。对于使用 FlashInfer 或 MXFP4 的团队,理解这里的适配模式有助于应对未来版本变更。
原始 PR · 作者 alisonshao · 合并时间 2026-05-15 16:01
定时调度触发额外测试层,引入PR awareness注释
值得精读该PR的工作流设计,尤其是`_pr-awareness-comment.yml`中通过HTML注释槽位替换和concurrency group序列化的实践,以及`call-pr-test-extra`的调度策略。对于维护多层级CI的仓库有参考价值。
原始 PR · 作者 alphabetc1 · 合并时间 2026-05-15 15:32
修复 dataclass 默认值中 (None,) 的 typo
无需深入阅读,但值得作为 Python dataclass 默认值陷阱的案例学习。
调整 Hunyuan3D shape 导出块大小以提升性能
PR 变更简单清晰,基于 profile 数据驱动,收益明确且风险可控,值得合并。对于显存敏感的场景,可考虑保留可配置性。
参与讨论