为EAGLE-3 draft模型添加SWA支持
建议阅读,特别是参数统一和向后兼容的设计策略。对于需要支持长上下文的 EAGLE-3 部署,此特性有实用价值。注意文档更新未包含在此 PR 中,需后续补充。
SGLang is a high-performance serving framework for large language models and multimodal models.
为EAGLE-3 draft模型添加SWA支持
建议阅读,特别是参数统一和向后兼容的设计策略。对于需要支持长上下文的 EAGLE-3 部署,此特性有实用价值。注意文档更新未包含在此 PR 中,需后续补充。
支持新一代 EAGLE-3 Draft 模型
值得精读:展示了如何在不破坏向后兼容的前提下扩展 speculative decoding 架构。特别关注 `nn.ModuleList` 替代单层、动态 `num_aux`、以及归一化位置的设计权衡。与 PR#24826 配合理解可窥见 EAGLE 系列的整体演进方向。
统一投机解码内部标识符命名规范
该 PR 可作为大规模代码重构中推行命名规范的实践参考。建议关注其命名规则的设计理念,以及如何通过自动化替换和 CI 验证确保重构安全。非紧急需精读的内容,但对参与投机解码开发的团队成员有一定学习价值。
原始 PR · 作者 popsiclexu · 合并时间 2026-05-12 08:55
MUSA 设备启用 piecewise CUDA graph 并优化算子
该 PR 值得精读,特别关注 MUSA 后端的 FX 补丁和 fake kernel 注册模式。对于跨平台算子层的开发者来说,这是一种通用的解决 `torch.compile` 兼容性的方法。PR 中的 review 讨论也提供了良好的代码健壮性实践(使用 `_replace`、`getattr`、条件注册)。建议后续增加 MUSA 硬件上的 CI 测试。
原始 PR · 作者 yeahdongcn · 合并时间 2026-05-12 08:54
为 Apple Silicon 添加 Metal kernel 构建支持
值得精读。该 PR 展示了多后端 kernel 仓库的搭建方式,setup_metal.py 的异常处理和 ccache 集成是良好实践。Review 中关于 AOT/JIT 和 IR 接口的讨论具有技术参考价值。
rerun-test 回复新增运行态图标
该 PR 值得阅读,尤其是 update_rerun_test_status.py 中关于状态机、幂等性和并发控制的实现思路,为类似 GitHub API 操作提供了可参考的模式。
原始 PR · 作者 merrymercy · 合并时间 2026-05-12 07:54
CI 权限配置新增 minosfuture 条目
无需精读,属于常规权限配置变更。
原始 PR · 作者 yushengsu-thu · 合并时间 2026-05-12 07:36
用 CUDA JIT 替换 PyTorch 回退,消除 CPU-GPU 同步,加速 MoE LoRA 虚拟专家路由
值得精读。展示了如何用 CUDA JIT kernel 替换 CPU-bound 回退来消除 NCCL stall,是 LoRA/MoE 性能优化的高质量实践。设计上的双路径 fallback 和精细的测试继承结构也值得借鉴。
参与讨论