Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 09:39 同步状态：空闲下次计划：2026-05-31 10:39

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-21

#40454 Default to 'align' mamba cache mode for Mamba-based models when speculative decoding is enabled

原始 PR · 作者 roikoren755 · 合并时间 2026-04-21 22:51

缺陷修复重要性 6.64 洞察度 5.00

默认 Mamba 缓存模式在推测解码时改为 align

值得精读，尤其是理解 Mamba 模型在不同配置下的缓存模式选择逻辑。变更简洁，但涉及对推测解码兼容性的设计权衡。

bugfixmodelquantization

#40445 [MM][CG] Optimize default `max_frames_per_batch` auto-infer for ViT CUDA graph video inference

原始 PR · 作者 shen-shanshan · 合并时间 2026-04-21 22:47

功能重要性 6.90 洞察度 6.00

优化ViT CUDA图视频推理的默认帧数自动推断，从硬编码改为模型感知。

建议技术管理者和工程师精读此PR，关注协议扩展和模型感知推断的设计决策，以及review中解决缓存问题的权衡，有助于理解vLLM多模态CUDA图路径的演进。

multi-modalityqwen

#39887 [XPU][CI] Add misc, engine and lora cases on Intel GPU in CI

原始 PR · 作者 zxd1997066 · 合并时间 2026-04-21 22:30

基础设施重要性 5.42 洞察度 4.00

新增Intel GPU的CI测试配置，覆盖misc、engine和lora组件。

对于负责CI基础设施、测试或Intel GPU支持的工程师，建议浏览新增的YAML配置文件以了解测试组织方式和硬件特定调整；但变更主要涉及配置和脚本调整，无需深入源码精读，可重点关注review中讨论的风险点。

ci/buildtestxpu

#37114 [Bugfix] LoRA: extend expert base_layer loading to Qwen3.5 and Step3.x

原始 PR · 作者 HollowMan6 · 合并时间 2026-04-21 22:17

缺陷修复重要性 6.66 洞察度 5.00

扩展LoRA专家权重加载逻辑，支持Qwen3.5和Step3.x模型的`.base_layer`前缀。

该PR值得精读，特别是了解LoRA权重加载中动态参数映射的设计决策，以及如何平衡向后兼容性和功能扩展。关注条件检测的实现和专家映射表的调整方式。

bugfixqwenmoe

#40034 [Doc] Add Qwen3 AWQ models to documentation

原始 PR · 作者 YM2132 · 合并时间 2026-04-21 21:37

文档重要性 1.70 洞察度 1.00

更新批次不变性文档，添加两个已验证的 Qwen3 AWQ 模型。

对于大多数工程师，无需精读此 PR。它仅是一个简单的文档更新。值得关注的点在于：它反映了 vLLM 项目对批次不变性功能测试覆盖的持续完善，以及文档与代码实现保持同步的实践。

documentationqwen

#40288 [Bugfix] Fix dataset name and path argument validation bug in vllm bench serve

原始 PR · 作者 talorabr · 合并时间 2026-04-21 21:14

缺陷修复重要性 6.59 洞察度 4.00

修复 vllm bench serve 中数据集参数顺序依赖的验证错误。

建议精读此 PR，特别是了解如何从 argparse Action 迁移到显式验证以解决顺序依赖问题，这对设计命令行参数验证有参考价值。

bugfix

#40282 Add Granite 4.1 Vision as built-in multimodal model

原始 PR · 作者 artem-spector · 合并时间 2026-04-21 20:43

功能重要性 9.00 洞察度 7.00

新增 Granite 4.1 Vision 内置多模态模型支持，集成 SigLip 视觉编码器和深度堆叠特征注入。

该 PR 值得精读，特别是关注深层特征注入的设计（参考 Qwen3-VL 模式）和 Pipeline Parallelism 集成方式。建议工程师学习缓冲区管理和线程安全实践，以及如何处理尚未 upstream 的模型配置。

featuremulti-modalitytest

#37861 [Frontend] Remove frontend pooling multi task support.

原始 PR · 作者 noooop · 合并时间 2026-04-21 20:27

重构重要性 7.89 洞察度 6.00

移除前端池化多任务支持，强制通过 PoolerConfig 显式指定任务。

建议工程师阅读此 PR 以了解池化任务配置的变更，特别关注 `get_pooling_task` 方法的引入和示例更新。对于维护者，此 PR 展示了如何系统性地移除功能并同步更新文档和测试。

frontendcleanuprefactor

第 145 / 253 页 · 共 2019 条

上一页 1 … 143 144 145 146 147 … 253 下一页