修复 MI300 上 MoE 测试死锁问题
此 PR 值得精读,展示了在多 worker 并行测试中处理非确定性缓存回收的一种简洁有效方法:使用分布式 barrier 保持 worker 同步,而非复杂的 GC 操作。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复 MI300 上 MoE 测试死锁问题
此 PR 值得精读,展示了在多 worker 并行测试中处理非确定性缓存回收的一种简洁有效方法:使用分布式 barrier 保持 worker 同步,而非复杂的 GC 操作。
原始 PR · 作者 labAxiaoming · 合并时间 2026-04-25 21:04
Qwen3 多模态 deepstack 缓冲区优化
值得精读此 PR 以理解 vLLM 中 deepstack 缓冲区的生命周期和优化思路,但需警惕其引入的边界检查回归。建议结合后续修复 PR #40932 一起理解,以形成完整的演进图景。对于生产部署,直接升级至包含修复的版本(如 v0.20.1+)或 cherry-pick 修复 commit。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-04-25 13:25
修复引擎关闭时 GPU 内存泄漏并添加诊断测试
建议引擎、内存管理相关开发者精读此 PR,重点了解:1)bound method 作为 LRU 缓存键导致的内存泄漏模式及解包方案;2)`gc.freeze/unfreeze` 的正确配对使用;3)异步资源传输与同步点设计的权衡。commit 历史展示了调试和返工过程,对理解设计演变有帮助。
预热 readonly MM processor 并修正缓存路由
本 PR 值得一线工程师和架构师精读,特别是 `BaseRenderer.warmup` 的提取以及参数化 `skip_mm_cache` 的决策,展示了如何在不破坏现有接口的前提下修正路由逻辑。新建的测试文件可作为模拟多模态环境的参考。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-04-25 10:59
修复 EAGLE3 测试中缺失 trust_remote_code 属性错误
建议合并,修复简单直接,经过 approve。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-04-25 10:21
修复 ROCm 上 SiluMul+FP8 融合测试因重构而中断
值得精读,特别是了解在重构后如何联动调整测试代码的实践。关注点:平台区分(fnuz vs 非 fnuz)、猴子补丁技巧、操作列表与编译传递的对应关系。
增加 Qwen2-VL 测试的 num_logprobs 参数以兼容 torch 2.12
建议合并。虽然未深入根因,但作为测试配置调整已足够。后续可跟踪 torch 2.12 相关 issue 以根本解决。
原始 PR · 作者 yewentao256 · 合并时间 2026-04-25 07:28
移除四个文件中的无用死代码
该 PR 是标准代码清理,值得快速合并。建议开发者关注其移除参数的决策逻辑,可借鉴其模式用于类似清理。
参与讨论