Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-05-31 03:31 同步状态:空闲 下次计划:2026-05-31 04:31
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-04-24
测试 重要性 6.19 洞察度 4.00

为ViT CUDA graph添加端到端测试

建议阅读本PR的测试框架设计,尤其是`VitCudagraphTestConfig`数据类和`params_with_marks`的使用方式,为多模态测试提供良好模板。后续可考虑采纳reviewer建议改进测试健壮性。

#40724 Fix Nano Nemotron VL static image inputs

原始 PR · 作者 milesial · 合并时间 2026-04-24 17:18

缺陷修复 重要性 5.43 洞察度 3.00

修复 Nano Nemotron VL 静态图像输入回归

建议精读此 PR,因为它展示了如何修复由较大重构引入的回归问题。关键设计决策是在静态路径中显式传递原本被遗漏的参数,确保数据流完整。同时,自动化代码审查建议的鲁棒性改进值得考虑,但当前修复在回归背景下是充分的。

#40772 [Bugfix] Fix IMA in DSA + MTP

原始 PR · 作者 WoosukKwon · 合并时间 2026-04-24 16:40

缺陷修复 重要性 4.43 洞察度 5.00

修复DSA+MTP场景下的IMA bug

建议精读:该PR展示了如何为性能优化(避免GPU→CPU同步)引入的副作用打补丁,值得关注边界情况处理。

功能 重要性 7.58 洞察度 6.00

Gemma4双向视觉注意力支持及滑动窗口守卫

该 PR 实现清晰,注释详实,测试数据充分。建议开发者重点关注 `_clear_mm_prefix_for_full_attn_layers` 的设计模式:在 compiled graph 外部管理注意力元数据,避免侵入 torch.compile 区域。对多模态模型研发者具有参考价值。

功能 重要性 7.54 洞察度 5.00

将XPU GDN kernel包装为自定义op以支持torch.compile

值得关注自定义op注册模式,这是vllm中处理torch.compile兼容性的标准做法。建议阅读`vllm/_xpu_ops.py`中的注册流程和`forward_xpu`的简化逻辑,可对比原先的内联版本理解抽象层次。

#37892 Support only half types for concat_mla_q kernel

原始 PR · 作者 xyang16 · 合并时间 2026-04-24 14:51

缺陷修复 重要性 3.12 洞察度 3.00

限制 concat_mla_q 仅支持半精度类型

简单且正确的 bugfix,值得快速合并。可顺便采纳 reviewer 关于 `int32_t` 的样式建议以提升代码清晰度。

缺陷修复 重要性 4.67 洞察度 5.00

修复Intel CI Docker清理竞态,引入文件锁和TTL清理

该PR值得精读,特别是学习如何在shell脚本中使用文件锁和TTL清理策略来解决并发资源管理问题。建议关注`--no-trunc`参数的使用以及`cleanup_old_ci_images`函数的逻辑,其设计可复用于其他CI场景。

#40574 [MoE] Move cutlass moe to fused_moe/experts/

原始 PR · 作者 Jackmin801 · 合并时间 2026-04-24 14:05

重构 重要性 6.08 洞察度 3.00

将 CUTLASS MoE 实现移至 experts/ 子目录

此 PR 作为跨文件重命名操作,建议快速合并以保持代码库一致性。无需深入 Code Review,但合并后应提醒相关开发者注意新导入路径。

参与讨论