Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 03:31 同步状态：空闲下次计划：2026-05-31 04:31

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-24

#40631 [Refactor] Unify 2D/3D kernels in triton_unified_attention

原始 PR · 作者 JartX · 合并时间 2026-04-24 23:18

重构重要性 7.13 洞察度 6.00

合并2D/3D注意力内核，提取共享辅助函数

建议精读此PR，特别是提取共享函数和使用constexpr条件编译的模式，这对其他Triton内核的维护具有参考价值。

refactorattention

#34556 [Quantization] add humming quantization kernel

原始 PR · 作者 jinzhen-lin · 合并时间 2026-04-24 21:29

功能重要性 9.18 洞察度 6.00

引入Humming JIT量化内核，支持多种量化格式

该PR是一次有意义的实验性集成，展示了将外部量化库引入vLLM的可行路径。对于阅读者，建议关注：①如何在`linear.py`中支持padding和float pack_factor；②Humming惰性导入的模式；③通过环境变量传递复杂JSON配置的方式。但应关注review中遗留的设计问题：在线量化应尽量与`fp8.py`的`Fp8OnlineLinearMethod`对齐，MoE部分应考虑注册到kernel oracle而非直接绑定。此外，测试覆盖不足是主要短板，未来迭代应优先补充。综合来看，该PR适合需要探索新型量化的工程师精读，但生产环境中应谨慎启用。

quantizationfeaturenvidia

#40412 fused_moe: treat NIXL EP as batched experts

原始 PR · 作者 itayalroy · 合并时间 2026-04-24 21:05

缺陷修复重要性 6.03 洞察度 6.00

使NIXL EP后端正确使用batched-expert激活格式和路由表

建议精读，该PR展示了通过属性抽象消除重复条件、提升可维护性的良好实践。值得关注的是`needs_round_robin_routing_tables`与`use_batched_activation_format`的语义分离决策，以及review中关于shared_experts条件可简化的洞见。

bugfixmoerefactor

#39401 [kv_offload+HMA][9/N]: Support lookup with multiple KV groups

原始 PR · 作者 orozery · 合并时间 2026-04-24 20:32

功能重要性 7.01 洞察度 5.00

支持多 KV 组查找，移除单组限制

建议关注此 PR 的设计模式：如何逐步移除单组限制并引入循环。核心变更集中在单一文件，逻辑清晰，但缺少测试覆盖。后续系列 PR 需要密切配合验证。建议在合并前补充集成测试。

kv-connectorfeaturerefactor

#40794 [Bugfix][MoE] Unpad routed output before shared expert add [Fixes #35949]

原始 PR · 作者 netanel-haber · 合并时间 2026-04-24 19:53

缺陷修复重要性 6.09 洞察度 4.00

修复 MoE 路由输出未截断导致张量形状不匹配

PR 改动小但重要，修复了一个影响 NVFP4 量化模型的回归。建议快速合入。对于 MoE runner 的维护者，建议后续添加对填充场景的单元测试，覆盖 `_maybe_pad_hidden_states` 不同填充量的情况。

bugfixmoequantization

#40045 [Attention] use diff kv backend for mimo v2 flash

原始 PR · 作者 ZJY0516 · 合并时间 2026-04-24 19:25

功能重要性 7.27 洞察度 6.00

为 MiMo V2 Flash 引入 DiffKV 注意力后端并支持 sink FA4 自动升级

建议读者关注后续是否对全局状态进行重构（如动态子类或 per-layer 参数），以及是否补充单元测试覆盖 diff-KV 后端和 FA 版本选择逻辑。该 PR 的设计权衡（全局 vs 隔离）值得思考。

attentionfeaturemodel

#39294 [Bugfix][Parser] Fix Mistral tool parser for HF tokenizers

原始 PR · 作者 thomasmaindron · 合并时间 2026-04-24 19:01

缺陷修复重要性 6.09 洞察度 5.00

修复 Mistral 工具解析器在 HF tokenizer 下的 JSON 解析错误

建议仔细阅读 `_is_pre_v11_tokeniser` 函数的修改和缓存策略的设计。由于缺少自动化测试，可以考虑后续补充针对 HF tokenizer 场景的测试用例，以巩固修复效果。

bugfixtool-callingmistral

#40669 [Build] Bump CUDA to 13.0.2 to match PyTorch 2.11.0

原始 PR · 作者 dmitry-tokarev-nv · 合并时间 2026-04-24 18:27

基础设施重要性 3.99 洞察度 3.00

统一CUDA版本至13.0.2以对齐PyTorch 2.11.0

该PR值得合并，因为它统一了版本漂移，提高了构建系统的一致性。建议阅读者关注以下细节： - 在review中关于架构列表`12.1`的讨论，理解了vllm对不同硬件架构的支持策略（GH10仅arm64）。 - cuBLAS版本的说明，了解当前CUDA 13.0.2附带的cuBLAS版本及其与最新版本的差异。此PR是构建系统维护的良好实践，不涉及功能逻辑，适合快速合并。

ci/buildnvidia

第 131 / 253 页 · 共 2019 条

上一页 1 … 129 130 131 132 133 … 253 下一页