为 MoE 层添加序列并行测试并修复相关 bug
建议阅读以了解 MoE 层序列并行测试的设计模式(`sp_wrapper`、`is_sequence_parallel` 属性),以及 defensive programming 在分布式通信中的应用(`x_sf is not None` 判断、assert 增强)。该 PR 也体现了测试驱动修复的思路,值得学习。
A high-throughput and memory-efficient inference and serving engine for LLMs
为 MoE 层添加序列并行测试并修复相关 bug
建议阅读以了解 MoE 层序列并行测试的设计模式(`sp_wrapper`、`is_sequence_parallel` 属性),以及 defensive programming 在分布式通信中的应用(`x_sf is not None` 判断、assert 增强)。该 PR 也体现了测试驱动修复的思路,值得学习。
原始 PR · 作者 alec-flowers · 合并时间 2026-05-13 09:05
升级 NIXL 依赖到 1.1.0,简化依赖配置
建议合并。此 PR 是直接的依赖清理,利用了上游 NIXL 1.1.0 的改进,简化了配置并加固了 CI 流程。值得关注其 CI 运行结果以确认 NIXL 1.1.0 与现有环境的兼容性。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-13 07:23
优化 MLA 预填充内存分配,减少 94% 内存占用
值得精读:这是一个简单但高效的优化模式,可在其他类似的循环合并场景中复用。注意变量交换技巧和延迟初始化。
新增 MooncakeStoreConnector 实现跨实例 KV 缓存共享与卸载
建议本 PR 合并至主线,以便用户测试并提供反馈。重点关注 ZMQ 错误处理和 TP 分片缓存查找的修复,建议在后续迭代中统一 AttentionBackend 的布局检测接口以消除魔法检测。
精简 DeepGEMM 注释并添加集成说明
对于关注 DeepGEMM 集成的开发人员,可以阅读集成说明和 TODO 以了解未来架构演进方向;对于普通开发者无需特别关注。
释放流水线注解内联化,提升实时可见性
该 PR 属于基础设施优化,不涉及核心业务逻辑,但可读性和架构清晰度有提升。建议采纳关于脚本失败容忍的建议,以避免潜在的生产问题。对于开发者和运维人员,值得了解新的注解机制,便于后续排查发布问题。
修复异步调度测试因 rank 排序波动导致的 flakiness
可立即合并。但建议后续跟踪测试稳定性,若仍有 flakiness 可考虑使用绝对容差,并处理 `None` rank 情况。
原始 PR · 作者 TheEpicDolphin · 合并时间 2026-05-13 04:37
将合成拒绝采样融合到统一内核
该 PR 展示了如何将两个独立代码路径合并而不损失性能匹配。值得关注的设计决策:故意保留 LSE 计算以对齐运行时间。建议推测解码相关开发者精读内核分支。
参与讨论