Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 09:39 同步状态：空闲下次计划：2026-05-31 10:39

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-21

#39100 [Deprecation] Deprecate cprofile and cprofile_context

原始 PR · 作者 yewentao256 · 合并时间 2026-04-21 11:25

重构重要性 3.92 洞察度 2.00

弃用 vLLM 内部未使用的 cProfile 辅助函数，引导用户直接使用 Python 原生模块。

此 PR 变更简单直接，无需深入技术分析。对于维护者，值得关注的点在于其遵循了“先弃用后移除”的良好实践，为外部用户提供了明确的迁移路径和版本时间线（v0.21）。

documentationcleanup

#40331 [Startup] Parallelize torch/transformers import + weight prefetch + forkserver prewarm

原始 PR · 作者 simon-mo · 合并时间 2026-04-21 10:49

性能优化重要性 8.21 洞察度 6.00

通过后台线程并行化导入和预取，显著减少 vLLM 冷启动时间。

建议精读此 PR，关注后台线程的启动时机（CLI 入口最早点）、错误处理的最佳努力策略，以及设计权衡如线程 vs 进程、条件触发（仅 serve 命令）。对于性能优化和系统启动流程感兴趣的工程师，可从中学习重叠 I/O 和并行化技巧。

frontendperformance

#40355 [Doc] Update ViT CUDA graph doc for mixed (image+video) inputs

原始 PR · 作者 shen-shanshan · 合并时间 2026-04-21 10:31

文档重要性 2.25 洞察度 2.00

更新多模态CUDA图文档，确认支持图像+视频混合输入。

此PR是纯粹的文档更新，无需深入阅读代码。对于想了解多模态CUDA图支持边界的开发者，可以快速浏览此文档变更以获取最新信息。关注点在于文档如何反映底层`_execute_mm_encoder`和`group_and_batch_mm_kwargs`的分组批处理机制对混合输入的支持。

documentationnvidia

#40411 [Bugfix] Gemma4: fix multimodal embedder norm order to match HF reference

原始 PR · 作者 lucianommartins · 合并时间 2026-04-21 10:28

缺陷修复重要性 5.92 洞察度 4.00

修正 Gemma4 多模态嵌入器中 LayerNorm 顺序

该 PR 值得精读，特别是对于想了解多模态模型中归一化位置对精度影响的研究者。类 docstring 的过时是一个微小残留问题，建议合入前或后续补上。

bugfixmodelmulti-modality

#40086 [Misc] Reduce attention logging levels

原始 PR · 作者 chaunceyjiang · 合并时间 2026-04-21 10:09

其他重要性 4.32 洞察度 2.00

将注意力层配置日志从 info 降级为 debug，减少默认日志输出。

该 PR 变更简单直接，无需深入精读。对于关注日志治理或希望了解如何控制 vLLM 内部日志输出的开发者，可以留意此模式：在核心模块（如注意力层）中将详细配置日志设为 DEBUG 级别，以保持默认 INFO 日志的清晰。

cleanup

#39554 [Bugfix] Fix `_CONFIG_REGISTRY` types getting wrong config class when on-disk model_type differs

原始 PR · 作者 misaAle · 合并时间 2026-04-21 10:04

缺陷修复重要性 6.90 洞察度 6.00

修复模型配置类注册错误，确保自定义插件模型正确加载。

建议精读此 PR，重点关注双重注册的设计决策，了解如何在保持 `AutoConfig.from_pretrained()` 统一路径的同时处理模型类型不一致问题。对于配置加载模块的开发者，此变更展示了权衡方案和测试验证的最佳实践。

bugfix

#40167 [vLLM IR] Add IR op testing and benchmarking infrastructure

原始 PR · 作者 gmagogsfm · 合并时间 2026-04-21 08:23

基础设施重要性 9.00 洞察度 7.00

新增 IR 操作测试与基准测试基础设施，支持自动化准确性验证和性能对比。

该 PR 值得精读，因为它展示了如何为 vLLM IR 操作设计可扩展的测试和基准测试基础设施。关注的设计决策包括输入生成器与操作绑定的机制、容忍度覆盖的灵活性，以及跨平台基准测试的实现方式。对于从事测试框架、性能优化或 IR 系统开发的工程师有较高参考价值。

testperformance

#39222 [Bugfix] Replace code that disabled shared expert overlap

原始 PR · 作者 bnellnm · 合并时间 2026-04-21 07:36

缺陷修复重要性 6.57 洞察度 5.00

修复共享专家重叠禁用逻辑的回归，确保在EPLB非默认后端和FlashInfer DP场景下正确禁用。

该PR值得精读，重点关注 `_disable_shared_experts_overlap` 属性的设计决策：它如何基于并行配置动态禁用重叠，体现了配置驱动架构的灵活性。此外，清理注释和断言的变化虽小，但反映了代码演进的细心，有助于理解MoE模块的内部控制流。

bugfixmoe

第 147 / 253 页 · 共 2019 条

上一页 1 … 145 146 147 148 149 … 253 下一页