Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 06:20 同步状态：空闲下次计划：2026-06-01 07:20

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-27

#34977 [Mamba][APC] Add test case to compare apc outputs

原始 PR · 作者 divakar-amd · 合并时间 2026-03-27 00:40

测试重要性 4.00 洞察度 5.00

添加Mamba模型前缀缓存输出一致性测试，确保APC开启与关闭时结果相同。

此PR值得工程师精读，特别是关注测试设计如何平衡资源消耗和正确性验证。值得关注的点包括：使用logprobs而非原始输出避免flakiness、处理内存清理的测试顺序调整、以及与大模型使用相关的权衡讨论。

testrocmcleanup

#37283 [Releases] [ROCm] Enable Nightly Docker Image and Wheel Releases for ROCm

原始 PR · 作者 tjtanaa · 合并时间 2026-03-27 00:32

基础设施重要性 7.00 洞察度 7.00

为ROCm启用Nightly Docker镜像和Wheel发布，扩展vLLM的持续集成流水线。

建议技术管理者和CI工程师精读此PR，重点关注缓存策略的设计和配置管理的演进。值得关注的设计决策包括移除脆性配置提取、统一缓存键生成，以及nightly发布流程的自动化实现，这些对于理解vLLM的CI/CD基础设施优化具有参考价值。

rocmcifeature

#38137 [ROCm][CI] Fix AITER state leak in shared_fused_moe_routed_transform test

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-27 00:26

缺陷修复重要性 5.00 洞察度 4.00

修复ROCm测试中AITER状态泄露，避免跨测试环境污染导致结果不一致。

该PR值得快速浏览，关注如何通过集成状态重置到标准清理函数（`cleanup_dist_env_and_memory`）来优雅处理测试间环境污染问题，这对编写健壮测试有参考价值，但变更逻辑简单，无需深入分析。

rocmbugfixtest

#35175 [Bugfix] Restore CUDA graph persistent buffers for FP8 FlashMLA decode

原始 PR · 作者 haosdent · 合并时间 2026-03-27 00:13

缺陷修复重要性 6.00 洞察度 5.00

修复 FP8 FlashMLA 解码中的 CUDA 图持久缓冲区缺失 bug，避免输出乱码。

此 PR 值得精读，因为它揭示了 CUDA 图与张量地址管理的微妙交互，以及如何在重构后保持缓冲区一致性。关注条件检查、断言保留的原因和与 PR #32810 的关联，有助于理解 vLLM 中注意力后端的演进。

bugfixcudagraphfp8

2026-03-26

#35886 [Bugfix][Minor] Fix potential NameError in mamba backend selector and misc typos

原始 PR · 作者 ChuanLi1101 · 合并时间 2026-03-26 23:59

缺陷修复重要性 4.00 洞察度 2.00

修复 Mamba 后端选择器中的潜在 NameError 错误和几个拼写问题。

该 PR 变更简单，不值得精读，但可作为错误处理最佳实践的参考，特别是避免未绑定变量在异常处理中的使用。工程师可快速浏览以了解修复细节。

bugfixrocmcleanup

#38014 [CI] Add batch invariant test for b200

原始 PR · 作者 yewentao256 · 合并时间 2026-03-26 23:54

基础设施重要性 3.00 洞察度 3.00

在 CI 中为 b200 设备添加批不变性测试步骤。

对于 CI 维护工程师，建议后续优化测试命令以避免冗余；对于其他工程师，此 PR 无需精读，除非涉及 CI 配置更改或批不变性测试。

citest

#38232 [Fix] Remove unused packing_position_embedding from PaddleOCRVL for better checkpoint compatibility

原始 PR · 作者 zhang-prog · 合并时间 2026-03-26 23:34

缺陷修复重要性 4.00 洞察度 3.00

移除PaddleOCRVL模型中未使用的packing_position_embedding，提升检查点兼容性。

此PR值得阅读，以了解如何清理未使用代码和改善检查点兼容性。关注forward方法中条件移除的决策，未来需验证'image_grid_thw'是否为None的假设。

bugfixmodelcleanup

#38169 Revert "[MoE Kernel] Flashinfer nvfp4 cutedsl moe kernel integration" (#38050)

原始 PR · 作者 zhewenl · 合并时间 2026-03-26 22:59

缺陷修复重要性 6.00 洞察度 4.00

回滚Flashinfer nvfp4 cutedsl MoE kernel集成以修复B200 GPU上的CI失败。

对于关注MoE kernel实现、量化优化或CI稳定的工程师，值得浏览此PR以理解回滚原因和原代码问题。重点关注`flashinfer_cutedsl_moe.py`中的输出张量处理，这是kernel设计中的常见陷阱。建议在重新集成时参考review中的修复建议，并加强测试覆盖以预防类似失败。

bugfixciquantization

第 231 / 253 页 · 共 2021 条

上一页 1 … 229 230 231 232 233 … 253 下一页