#34977 [Mamba][APC] Add test case to compare apc outputs
原始 PR · 作者 divakar-amd · 合并时间 2026-03-27 00:40
添加Mamba模型前缀缓存输出一致性测试,确保APC开启与关闭时结果相同。
此PR值得工程师精读,特别是关注测试设计如何平衡资源消耗和正确性验证。值得关注的点包括:使用logprobs而非原始输出避免flakiness、处理内存清理的测试顺序调整、以及与大模型使用相关的权衡讨论。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 divakar-amd · 合并时间 2026-03-27 00:40
添加Mamba模型前缀缓存输出一致性测试,确保APC开启与关闭时结果相同。
此PR值得工程师精读,特别是关注测试设计如何平衡资源消耗和正确性验证。值得关注的点包括:使用logprobs而非原始输出避免flakiness、处理内存清理的测试顺序调整、以及与大模型使用相关的权衡讨论。
为ROCm启用Nightly Docker镜像和Wheel发布,扩展vLLM的持续集成流水线。
建议技术管理者和CI工程师精读此PR,重点关注缓存策略的设计和配置管理的演进。值得关注的设计决策包括移除脆性配置提取、统一缓存键生成,以及nightly发布流程的自动化实现,这些对于理解vLLM的CI/CD基础设施优化具有参考价值。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-27 00:26
修复ROCm测试中AITER状态泄露,避免跨测试环境污染导致结果不一致。
该PR值得快速浏览,关注如何通过集成状态重置到标准清理函数(`cleanup_dist_env_and_memory`)来优雅处理测试间环境污染问题,这对编写健壮测试有参考价值,但变更逻辑简单,无需深入分析。
修复 FP8 FlashMLA 解码中的 CUDA 图持久缓冲区缺失 bug,避免输出乱码。
此 PR 值得精读,因为它揭示了 CUDA 图与张量地址管理的微妙交互,以及如何在重构后保持缓冲区一致性。关注条件检查、断言保留的原因和与 PR #32810 的关联,有助于理解 vLLM 中注意力后端的演进。
原始 PR · 作者 ChuanLi1101 · 合并时间 2026-03-26 23:59
修复 Mamba 后端选择器中的潜在 NameError 错误和几个拼写问题。
该 PR 变更简单,不值得精读,但可作为错误处理最佳实践的参考,特别是避免未绑定变量在异常处理中的使用。工程师可快速浏览以了解修复细节。
原始 PR · 作者 yewentao256 · 合并时间 2026-03-26 23:54
在 CI 中为 b200 设备添加批不变性测试步骤。
对于 CI 维护工程师,建议后续优化测试命令以避免冗余;对于其他工程师,此 PR 无需精读,除非涉及 CI 配置更改或批不变性测试。
原始 PR · 作者 zhang-prog · 合并时间 2026-03-26 23:34
移除PaddleOCRVL模型中未使用的packing_position_embedding,提升检查点兼容性。
此PR值得阅读,以了解如何清理未使用代码和改善检查点兼容性。关注forward方法中条件移除的决策,未来需验证'image_grid_thw'是否为None的假设。
回滚Flashinfer nvfp4 cutedsl MoE kernel集成以修复B200 GPU上的CI失败。
对于关注MoE kernel实现、量化优化或CI稳定的工程师,值得浏览此PR以理解回滚原因和原代码问题。重点关注`flashinfer_cutedsl_moe.py`中的输出张量处理,这是kernel设计中的常见陷阱。建议在重新集成时参考review中的修复建议,并加强测试覆盖以预防类似失败。
参与讨论