Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 03:31 同步状态：空闲下次计划：2026-05-31 04:31

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-24

#40780 [CI/Build] Add e2e test for ViT CUDA graph

原始 PR · 作者 shen-shanshan · 合并时间 2026-04-24 18:12

测试重要性 6.19 洞察度 4.00

为ViT CUDA graph添加端到端测试

建议阅读本PR的测试框架设计，尤其是`VitCudagraphTestConfig`数据类和`params_with_marks`的使用方式，为多模态测试提供良好模板。后续可考虑采纳reviewer建议改进测试健壮性。

testci/buildmulti-modality

#40724 Fix Nano Nemotron VL static image inputs

原始 PR · 作者 milesial · 合并时间 2026-04-24 17:18

缺陷修复重要性 5.43 洞察度 3.00

修复 Nano Nemotron VL 静态图像输入回归

建议精读此 PR，因为它展示了如何修复由较大重构引入的回归问题。关键设计决策是在静态路径中显式传递原本被遗漏的参数，确保数据流完整。同时，自动化代码审查建议的鲁棒性改进值得考虑，但当前修复在回归背景下是充分的。

bugfixmodel

#40772 [Bugfix] Fix IMA in DSA + MTP

原始 PR · 作者 WoosukKwon · 合并时间 2026-04-24 16:40

缺陷修复重要性 4.43 洞察度 5.00

修复DSA+MTP场景下的IMA bug

建议精读：该PR展示了如何为性能优化（避免GPU→CPU同步）引入的副作用打补丁，值得关注边界情况处理。

bugfixspeculative-decodingkernel

#40534 [Model] Gemma4: add bidirectional vision attention for sliding layers with window guard

原始 PR · 作者 lucianommartins · 合并时间 2026-04-24 16:27

功能重要性 7.58 洞察度 6.00

Gemma4双向视觉注意力支持及滑动窗口守卫

该 PR 实现清晰，注释详实，测试数据充分。建议开发者重点关注 `_clear_mm_prefix_for_full_attn_layers` 的设计模式：在 compiled graph 外部管理注意力元数据，避免侵入 torch.compile 区域。对多模态模型研发者具有参考价值。

featuremodelmulti-modality

#39466 [XPU] Enable torch.compile for XPU GDN attention

原始 PR · 作者 yuwenzho · 合并时间 2026-04-24 16:26

功能重要性 7.54 洞察度 5.00

将XPU GDN kernel包装为自定义op以支持torch.compile

值得关注自定义op注册模式，这是vllm中处理torch.compile兼容性的标准做法。建议阅读`vllm/_xpu_ops.py`中的注册流程和`forward_xpu`的简化逻辑，可对比原先的内联版本理解抽象层次。

xpuperformancefeature

#37892 Support only half types for concat_mla_q kernel

原始 PR · 作者 xyang16 · 合并时间 2026-04-24 14:51

缺陷修复重要性 3.12 洞察度 3.00

限制 concat_mla_q 仅支持半精度类型

简单且正确的 bugfix，值得快速合并。可顺便采纳 reviewer 关于 `int32_t` 的样式建议以提升代码清晰度。

bugfixkernelnvidia

#40761 [XPU][CI] Fix Docker cleanup races on Intel CI runners

原始 PR · 作者 zxd1997066 · 合并时间 2026-04-24 14:08

缺陷修复重要性 4.67 洞察度 5.00

修复Intel CI Docker清理竞态，引入文件锁和TTL清理

该PR值得精读，特别是学习如何在shell脚本中使用文件锁和TTL清理策略来解决并发资源管理问题。建议关注`--no-trunc`参数的使用以及`cleanup_old_ci_images`函数的逻辑，其设计可复用于其他CI场景。

intel-gpuci/buildbugfix

#40574 [MoE] Move cutlass moe to fused_moe/experts/

原始 PR · 作者 Jackmin801 · 合并时间 2026-04-24 14:05

重构重要性 6.08 洞察度 3.00

将 CUTLASS MoE 实现移至 experts/ 子目录

此 PR 作为跨文件重命名操作，建议快速合并以保持代码库一致性。无需深入 Code Review，但合并后应提醒相关开发者注意新导入路径。

refactormoecleanup

第 132 / 253 页 · 共 2019 条

上一页 1 … 130 131 132 133 134 … 253 下一页