Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 07:36 同步状态：空闲下次计划：2026-05-31 08:36

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-23

#40562 [Bugfix][Torch 2.12] Fix batch_invariant test with allow_override for torch 2.12 upgrade

原始 PR · 作者 Lucaskabela · 合并时间 2026-04-23 04:48

缺陷修复重要性 5.50 洞察度 3.00

修复 Torch 2.12 下 bmm 注册冲突

值得阅读，了解 Torch 与下游框架在 dispatcher 层面的交互。

bugfixperformance

#40540 [Refactor] Clean up log once `scope="local"`

原始 PR · 作者 yewentao256 · 合并时间 2026-04-23 04:42

重构重要性 6.50 洞察度 3.00

清理log once调用中冗余的scope='local'参数，简化代码。

该PR是简单的代码清理，无需深入阅读；但可关注review中关于`scope="global"`的讨论，以理解日志作用域在分布式环境中的重要性。

refactorcleanup

#40531 [Bugfix][Parser] Fix Mistral pre-v11 tool parser failing on trailing model output

原始 PR · 作者 dougbtv · 合并时间 2026-04-23 04:35

缺陷修复重要性 6.41 洞察度 6.00

修复Mistral pre-v11工具解析器因尾随数据导致的JSON解析失败。

该PR值得精读，展示了如何处理模型输出中的非标准JSON，以及如何通过测试确保修复的健壮性。关注`json.JSONDecoder().raw_decode()`的使用、regex回退路径的修复和`.get()`的权衡，这些设计决策对类似解析场景有借鉴意义。

bugfixtool-callingmistral

#40394 FlexAttention non-causal support

原始 PR · 作者 fynnsu · 合并时间 2026-04-23 04:22

功能重要性 7.04 洞察度 6.00

为 FlexAttention 后端添加非因果注意力支持，使 DFlash 推测解码模型能在不支持 FlashAttention 的设备上运行。

该 PR 值得精读，特别是掩码函数的设计和元数据调整，展示了如何扩展注意力后端以支持新特性。建议关注性能权衡、正确性测试覆盖以及 review 中讨论的 bug 修复。

featureattention

#40636 Fix test_startup.py for torch 2.12

原始 PR · 作者 angelayi · 合并时间 2026-04-23 03:31

缺陷修复重要性 4.80 洞察度 3.00

修复 PyTorch 2.12 下编译启动测试因版本检测和缓存行为变化导致的失败。

该 PR 值得快速浏览，重点关注版本检测的调整逻辑和测试预期的条件化设计。对于维护 vLLM 与 PyTorch 版本兼容性的团队，可学习如何优雅处理开发版与正式版版本号差异。无需深入阅读源码，但可注意 `is_torch_equal_or_newer` 函数的使用模式。

bugfixtesttorch.compile

2026-04-22

#35737 [NVFP4] NVFP4 MOE emulation fallback for H100/MI300/MI350, standardize `TritonExperts` usage for OCP MX emulation

原始 PR · 作者 fxmarty-amd · 合并时间 2026-04-22 23:58

功能重要性 9.18 洞察度 7.00

新增NVFP4和OCP MX MoE量化模拟后端，支持非Blackwell设备运行量化模型。

建议技术管理者和工程师精读此PR，重点关注模拟后端的设计决策：如何通过`TritonExperts`基类标准化量化模拟路径，以及如何处理激活和权重的量化-反量化操作。这对于理解vLLM中量化扩展机制和跨硬件兼容性策略有重要参考价值。

quantizationmoefeature

#39187 [MoE] Convert CT W8A8 To Oracle Structure

原始 PR · 作者 robertgshaw2-redhat · 合并时间 2026-04-22 22:53

重构重要性 8.85 洞察度 6.00

重构 W8A8 Int8 MoE 量化方法，引入模块化后端选择架构。

建议精读此 PR 以了解模块化内核选择的设计决策，特别是 `int8.py` 中的后端选择逻辑和 `compressed_tensors_moe_w8a8_int8.py` 中的集成方式。关注 review 中讨论的参数顺序问题，以学习如何避免类似错误。

moequantizationrefactor

#40560 [MoE Refactor] Combine MoERunnerBase + DefaultMoERunner

原始 PR · 作者 bnellnm · 合并时间 2026-04-22 22:43

重构重要性 9.00 洞察度 5.00

合并 MoE runner 基类与默认实现，简化架构并移除冗余工厂。

建议技术管理者和核心工程师精读此 PR，以了解 MoE 架构的演进方向：通过合并冗余类来集中逻辑，同时引入接口为未来扩展铺垫。关注 `moe_runner.py` 中的具体实现和 review 中修复的逻辑缺陷，这些是设计决策的关键体现。

refactormoe

第 139 / 253 页 · 共 2019 条

上一页 1 … 137 138 139 140 141 … 253 下一页