#40780 [CI/Build] Add e2e test for ViT CUDA graph
原始 PR · 作者 shen-shanshan · 合并时间 2026-04-24 18:12
为ViT CUDA graph添加端到端测试
建议阅读本PR的测试框架设计,尤其是`VitCudagraphTestConfig`数据类和`params_with_marks`的使用方式,为多模态测试提供良好模板。后续可考虑采纳reviewer建议改进测试健壮性。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 shen-shanshan · 合并时间 2026-04-24 18:12
为ViT CUDA graph添加端到端测试
建议阅读本PR的测试框架设计,尤其是`VitCudagraphTestConfig`数据类和`params_with_marks`的使用方式,为多模态测试提供良好模板。后续可考虑采纳reviewer建议改进测试健壮性。
修复 Nano Nemotron VL 静态图像输入回归
建议精读此 PR,因为它展示了如何修复由较大重构引入的回归问题。关键设计决策是在静态路径中显式传递原本被遗漏的参数,确保数据流完整。同时,自动化代码审查建议的鲁棒性改进值得考虑,但当前修复在回归背景下是充分的。
原始 PR · 作者 WoosukKwon · 合并时间 2026-04-24 16:40
修复DSA+MTP场景下的IMA bug
建议精读:该PR展示了如何为性能优化(避免GPU→CPU同步)引入的副作用打补丁,值得关注边界情况处理。
原始 PR · 作者 lucianommartins · 合并时间 2026-04-24 16:27
Gemma4双向视觉注意力支持及滑动窗口守卫
该 PR 实现清晰,注释详实,测试数据充分。建议开发者重点关注 `_clear_mm_prefix_for_full_attn_layers` 的设计模式:在 compiled graph 外部管理注意力元数据,避免侵入 torch.compile 区域。对多模态模型研发者具有参考价值。
将XPU GDN kernel包装为自定义op以支持torch.compile
值得关注自定义op注册模式,这是vllm中处理torch.compile兼容性的标准做法。建议阅读`vllm/_xpu_ops.py`中的注册流程和`forward_xpu`的简化逻辑,可对比原先的内联版本理解抽象层次。
限制 concat_mla_q 仅支持半精度类型
简单且正确的 bugfix,值得快速合并。可顺便采纳 reviewer 关于 `int32_t` 的样式建议以提升代码清晰度。
原始 PR · 作者 zxd1997066 · 合并时间 2026-04-24 14:08
修复Intel CI Docker清理竞态,引入文件锁和TTL清理
该PR值得精读,特别是学习如何在shell脚本中使用文件锁和TTL清理策略来解决并发资源管理问题。建议关注`--no-trunc`参数的使用以及`cleanup_old_ci_images`函数的逻辑,其设计可复用于其他CI场景。
原始 PR · 作者 Jackmin801 · 合并时间 2026-04-24 14:05
将 CUTLASS MoE 实现移至 experts/ 子目录
此 PR 作为跨文件重命名操作,建议快速合并以保持代码库一致性。无需深入 Code Review,但合并后应提醒相关开发者注意新导入路径。
参与讨论