修复 MTP 模式下 CPU mirror 的 computed tokens 发散问题
建议精读 `update_requests` 和 `is_prefilling` 的改动逻辑,理解 computed tokens 状态同步方式;可关注后续是否添加性能优化。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复 MTP 模式下 CPU mirror 的 computed tokens 发散问题
建议精读 `update_requests` 和 `is_prefilling` 的改动逻辑,理解 computed tokens 状态同步方式;可关注后续是否添加性能优化。
用 Triton 为 ROCm DeepSeekV4 稀疏 MLA 加速
该 PR 值得精读,尤其是新增的 Triton kernel 实现和 ROCm backend 集成方式。设计决策中,将 platform-specific 逻辑从 model layer 下沉到 backend 选择是良好的分离。但需关注 review 中提出的正确性风险是否在合并前解决。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-12 00:20
使用 Cutlass FP8 实现批量不变性,延迟降低 28.9%
该 PR 值得精读,尤其关注:1)如何通过固定 CUTLASS 配置实现 batch invariance 并保持正确性;2)FP8 线性层 `apply` 的分支设计兼顾性能与回退。对使用 FP8 批处理推理的团队有直接影响。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-11 23:45
修复 Kimi K2.6 mm_projector 输入 dtype 不匹配崩溃
建议精读该 PR,了解多模态模型中自定义 forward 函数与 batch invariance 交互时可能的 dtype 问题。设计上,从 projector 的权重 dtype 推断预期输入 dtype 是合理做法,但可考虑更通用的契约(如所有涉及预处理的函数都显式转换)。
原始 PR · 作者 vadiklyutiy · 合并时间 2026-05-11 23:10
修复 modelopt 量化方法名检查的边界问题
建议快速合并。变更小(1 行)、理由清晰、风险低,且与代码库中其他位置的已有逻辑保持一致。值得关注的是该函数的历史缺陷(精确匹配 vs. 前缀匹配),可作为未来重构时的参考。
合并 KV 卸载重用过滤逻辑到 CPUOffloadingManager
建议合并此 PR。重构清晰,逻辑等价,测试覆盖。团队应关注后续关于计数位置调整的讨论,在引入 `request_finished` 钩子时优化计数逻辑。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-11 22:48
清理 batch_invariant 模块的死代码与无用导入
该 PR 属于纯粹的代码清理,无功能性变更,不值得深入阅读。但作为代码维护的正面例子,可启发团队成员主动清理死代码。
原始 PR · 作者 pschlan-amd · 合并时间 2026-05-11 22:45
清理 ROCm AITER FA 后端,优化 decode 延迟
值得精读。该 PR 展示了两个常见优化模式:①移除未使用的元数据以减少计算和内存开销;②避免不必要的设备到主机同步。对于在高延迟 PCIe/NUMA 环境下运行 decode-heavy 推理负载的团队,这种条件性同步技巧尤为实用。
参与讨论