Prhub
← 返回仓库列表

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-04-19 03:55 同步状态:空闲 下次计划:2026-04-19 04:55

PR 列表

已合并 792 · 已分析 792
更多筛选
2026-03-25

#38074 [Model] Add AutoWeightsLoader support for jais

作者 grYe99 · 合并时间 2026-03-25 20:38

功能 重要性 5.00 洞察度 5.00

为 JAIS 模型添加 load_weights 方法并重构以支持 AutoWeightsLoader,提升一致性。

建议阅读者精读此 PR,以了解如何集成 AutoWeightsLoader 并处理自定义权重逻辑。关注设计决策,如为何保留部分自定义代码而非完全使用 AutoWeightsLoader,这对模型加载模块的设计有参考价值。

#38090 Fix Plamo 2/3 & LFM2 for Transformers v5

作者 hmellor · 合并时间 2026-03-25 20:29

缺陷修复 重要性 5.00 洞察度 4.00

修复 Plamo 2/3 和 LFM2 模型以兼容 Transformers v5 的配置变更。

对于 vLLM 维护者或使用 Plamo/LFM2 模型的工程师,建议快速 review 此 PR 以理解兼容性变更。变更逻辑简单,但涉及核心模型参数,值得关注以确保无遗漏。对于学习模型适配模式的开发者,可精读类型检查改进部分。

#38035 Better weight tying check for multimodal models

作者 hmellor · 合并时间 2026-03-25 20:07

缺陷修复 重要性 4.00 洞察度 4.00

改进多模态模型中 `tie_word_embeddings` 的检查逻辑,避免误判。

对于处理多模态模型或 Transformers v5 兼容性的开发者,建议精读此 PR 以了解权重绑定逻辑的设计权衡;对于一般用户,变更影响有限,可快速浏览。

#37840 [Docs] Adds vllm-musa to custom_op.md

作者 yeahdongcn · 合并时间 2026-03-25 19:54

文档 重要性 1.00 洞察度 1.00

在 custom_op.md 文档中添加 vllm-musa 插件信息。

此 PR 变更简单,无需精读。可作为文档更新的标准示例。关注点在于确保外部链接的有效性和文档一致性,对于深入了解硬件插件机制的工程师,可参考相关设计文档。

缺陷修复 重要性 5.00 洞察度 3.00

修复Eagle3中quantized lm_head权重加载失败bug,传递quant_config到ParallelLMHead。

对于涉及Eagle3或量化开发的工程师,建议精读`llama_eagle3.py`中的quant_config传递逻辑,关注设计决策;对于一般用户,可快速浏览以了解修复内容。

#38095 Fix offline mode test for Transformers v5

作者 hmellor · 合并时间 2026-03-25 19:39

测试 重要性 4.00 洞察度 3.00

修复Transformers v5下offline mode测试的模块别名处理问题。

建议快速浏览此PR以了解如何适配Transformers v5的模块别名变化,对于处理类似测试场景有参考价值。无需深度精读,除非关注测试基础设施。

缺陷修复 重要性 4.00 洞察度 5.00

为 ROCm 平台添加 ROCM_EXTRA_ARGS 到两个测试文件并早期验证 pooling params,修复 flaky 的嵌入测试。

建议关注测试设计的权衡,尤其是 `ROCM_EXTRA_ARGS` 的使用是否应更明确标注或跳过相关测试。同时,异常处理更改值得了解,可参考相关 issue 以跟踪批不变性问题进展。

参与讨论