Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 05:19 同步状态：空闲下次计划：2026-06-01 06:19

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-26

#38116 Relocate Encoder CUDA graph manager

原始 PR · 作者 WoosukKwon · 合并时间 2026-03-26 11:52

重构重要性 3.00 洞察度 2.00

将Encoder CUDA graph manager从v1/worker/gpu/目录移动到v1/worker/，避免与model runner v2目录冲突。

此PR值得快速浏览以了解目录结构调整，但无需深入分析复杂设计决策。关注点在于导入路径更新是否完整，建议检查相关文档和测试以确保无遗漏引用。

refactorcudagraphcleanup

#38029 [Tool Parser][1/3] Pass tools to ToolParser constructor

原始 PR · 作者 sfeng33 · 合并时间 2026-03-26 10:29

重构重要性 5.00 洞察度 5.00

为工具解析器构造函数添加 tools 参数，支持后续统一输出解析器解耦。

建议工程师精读 vllm/tool_parsers/abstract_tool_parser.py 的变更，了解 Tool 类型定义和构造函数设计；同时关注 review 讨论中的设计决策，如参数封装策略和类型处理，这些对理解整体重构方向和后续 PR 2、3 的演进有帮助。

refactorfrontendtool-calling

#38076 [Revert] Remove DeepGEMM availability check in DeepseekV32IndexerMetadataBuilder

原始 PR · 作者 chaunceyjiang · 合并时间 2026-03-26 09:43

重构重要性 4.00 洞察度 3.00

移除 DeepGEMM 可用性检查，简化 DeepseekV32 索引器的 CUDA 图支持逻辑。

建议工程师精读此 PR，关注 CUDA 图支持逻辑的简化设计，特别是在部署到多样化 GPU 环境时，应验证 DeepGEMM 的可用性以避免性能影响。

refactorcudagraphperformance

#34549 [Misc] Optimized check to encapsulate both CUDA and ROCm platforms

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-26 09:43

重构重要性 3.00 洞察度 3.00

使用 `is_cuda_alike()` 辅助方法统一检查 CUDA 和 ROCm 平台，提升代码可维护性。

建议快速浏览此 PR 以了解代码重构模式，但需注意 gemini-code-assist[bot] 提出的正确性建议，这可能揭示潜在的 UVA 内存安全问题，值得在后续代码审查中关注。

refactorrocm

#38152 Disable dual stream execution of input projection for Qwen3

原始 PR · 作者 xyang16 · 合并时间 2026-03-26 09:20

重构重要性 5.00 洞察度 4.00

为 Qwen3 模型禁用输入投影的双流执行，修复冷编译时间约 4 倍的回归。

建议技术管理者关注此 PR，因为它展示了性能优化与编译时间的权衡，以及临时回退的策略。工程师可学习如何安全地移除自定义操作以避免编译回归。

refactorperformanceqwen

#37214 Fix minimax m2.5 nvfp4 kv scales weight loading

原始 PR · 作者 wzhao18 · 合并时间 2026-03-26 08:48

缺陷修复重要性 4.00 洞察度 3.00

修复MiniMax M2.5 NVFP4模型KV缩放权重加载时的KeyError问题。

该PR值得快速浏览，特别是对于处理模型权重加载或MiniMax模型支持的工程师。关注点在于参数名重映射的设计决策，以及如何优雅处理外部模型文件与内部参数结构的差异。虽然代码变更简单，但体现了模型兼容性维护的典型模式。

bugfixmodel

#37348 [Bugfix] Fix Qwen3.5-FP8 Weight Loading Error on TPU

原始 PR · 作者 jrplatin · 合并时间 2026-03-26 08:46

缺陷修复重要性 4.00 洞察度 3.00

修复TPU上Qwen3.5-FP8模型权重加载时的维度不匹配错误。

对于维护FP8量化或TPU支持的相关开发者，建议精读此PR以理解BlockQuantScaleParameter的处理逻辑和硬件差异。同时，可关注代码重复问题，未来重构时参考gemini-code-assist[bot]的建议。

bugfixqwenfp8

#38127 Various Transformers v5 fixes

原始 PR · 作者 hmellor · 合并时间 2026-03-26 08:10

缺陷修复重要性 4.00 洞察度 3.00

修复Transformers v5相关配置错误，清理过时代码以提升兼容性。

建议工程师在类似配置处理场景中关注字典副作用的避免，同时review sliding window转换逻辑的时序以确保正确性。该PR变更简洁，适合快速了解配置修复模式和代码清理实践。

bugfixmodelrefactor

第 234 / 253 页 · 共 2021 条

上一页 1 … 232 233 234 235 236 … 253 下一页

vllm-project/vllm

PR 列表

#38116 Relocate Encoder CUDA graph manager

#38029 [Tool Parser][1/3] Pass tools to ToolParser constructor

#38076 [Revert] Remove DeepGEMM availability check in DeepseekV32IndexerMetadataBuilder

#34549 [Misc] Optimized check to encapsulate both CUDA and ROCm platforms

#38152 Disable dual stream execution of input projection for Qwen3

#37214 Fix minimax m2.5 nvfp4 kv scales weight loading

#37348 [Bugfix] Fix Qwen3.5-FP8 Weight Loading Error on TPU

#38127 Various Transformers v5 fixes

参与讨论