Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 06:20 同步状态：空闲下次计划：2026-06-01 07:20

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-05

#32694 [Quantization][Deprecation] Remove Petit NVFP4

原始 PR · 作者 robertgshaw2-redhat · 合并时间 2026-04-05 08:07

重构重要性 4.00 洞察度 2.00

移除 Petit NVFP4 量化支持，清理废弃代码。

该 PR 变更简单机械，主要价值在于代码清理实践，建议工程师快速浏览以了解废弃功能移除的标准流程，无需深究技术细节；但对于负责量化模块或 ROCM 平台的开发者，可关注配置文件更新和依赖移除方式。

refactorrocmquantization

#38998 Revert "[vLLM IR] gemma_rms_norm"

原始 PR · 作者 robertgshaw2-redhat · 合并时间 2026-04-05 05:48

缺陷修复重要性 7.00 洞察度 6.00

回退GemmaRMSNorm的IR重构，修复残差张量dtype不一致导致的测试失败。

建议技术管理者关注此PR，因为它揭示了vLLM IR集成中的设计权衡：在追求性能优化时，必须确保类型安全。工程师应精读layernorm.py的变更，学习如何处理残差张量的dtype转换，并参考review讨论避免类似错误；同时，可对比#38780的原始设计，评估未来是否重新引入IR优化。

bugfixmodel

#38780 [vLLM IR][RMSNorm] Port GemmaRMSNorm to vLLM IR Ops

原始 PR · 作者 wxsIcey · 合并时间 2026-04-05 01:55

重构重要性 6.00 洞察度 6.00

将GemmaRMSNorm层迁移到vLLM IR的rms_norm操作，简化实现并统一计算路径。

建议技术管理者关注此PR，它展示了vLLM IR系统的实际应用和dtype处理的设计决策。工程师可精读以学习如何将现有PyTorch操作迁移到IR框架，并注意性能权衡和kernel注册变更。

refactormodelperformance

#38981 [Perf][GDN] Align TMA usage with upstream FLA

原始 PR · 作者 arpera · 合并时间 2026-04-05 00:38

性能优化重要性 6.00 洞察度 7.00

对齐GDN内核TMA使用与上游FLA，默认禁用TMA以提升B200性能。

该PR值得精读，尤其关注：1. 内核性能调优中硬件特定优化（TMA）的权衡决策。2. 如何通过环境变量控制高级特性以平衡性能与兼容性。3. 与上游开源库保持同步的最佳实践。对于从事GPU内核优化或使用Blackwell GPU的工程师，此PR提供了有价值的性能洞察。

performancekernelnvidia

2026-04-04

#38961 [IR][RmsNorm] pass None if not has_weight

原始 PR · 作者 lk-chen · 合并时间 2026-04-04 23:02

缺陷修复重要性 4.00 洞察度 3.00

修复TPU上Gemma4模型因RMSNorm层权重传递问题导致的启动失败。

该PR值得快速浏览以了解TPU兼容性修复模式，但无需深入分析。关注点：1) 学习如何针对特定硬件平台（TPU）进行紧急修复。2) 注意review中提到的跨后端一致性问题，这揭示了底层IR操作在不同硬件后端实现中的设计权衡。3) TODO注释表明这是一个临时方案，后续可能有更全面的重构。

bugfixmodel

#38970 [Bugfix][CPU] Fix macOS compatibility broken by #36487

原始 PR · 作者 2imi9 · 合并时间 2026-04-04 22:05

缺陷修复重要性 5.00 洞察度 4.00

修复PR #36487引入的Linux专用API调用，恢复vLLM在macOS上的CPU支持。

建议macOS用户或关注跨平台兼容性的开发者精读此PR。重点关注_get_default_affinity()和_get_cpu_topology_json()的设计决策，了解如何在缺乏系统API时提供优雅降级。同时注意关联Issue中提到的物理核心检测问题，可能需要在后续PR中完善。

bugfixcpu

#38955 Refactor Arctic loading to use AutoWeightsLoader

原始 PR · 作者 lalit10 · 合并时间 2026-04-04 13:01

重构重要性 5.00 洞察度 5.00

重构Arctic模型权重加载逻辑，采用AutoWeightsLoader标准化处理。

建议工程师精读此PR，了解AutoWeightsLoader的应用模式和MoE层检测的设计权衡；同时关注潜在逻辑错误点，确保在类似重构中避免类似问题。

refactormodel

#38870 [Bugfix] Fix DSV32 weight loading

原始 PR · 作者 zyongye · 合并时间 2026-04-04 10:57

缺陷修复重要性 6.00 洞察度 6.00

修复 DeepSeek MTP 和 V2 模型在 FP8 量化下权重加载的 KeyError bug。

该 PR 值得精读，特别是对于从事模型加载和量化集成的工程师。关注条件逻辑的设计决策、null-safety 的处理方式，以及 review 中讨论的 guard 条件优化。

bugfixdeepseekmodel

第 200 / 253 页 · 共 2021 条

上一页 1 … 198 199 200 201 202 … 253 下一页