#39100 [Deprecation] Deprecate cprofile and cprofile_context
原始 PR · 作者 yewentao256 · 合并时间 2026-04-21 11:25
弃用 vLLM 内部未使用的 cProfile 辅助函数,引导用户直接使用 Python 原生模块。
此 PR 变更简单直接,无需深入技术分析。对于维护者,值得关注的点在于其遵循了“先弃用后移除”的良好实践,为外部用户提供了明确的迁移路径和版本时间线(v0.21)。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 yewentao256 · 合并时间 2026-04-21 11:25
弃用 vLLM 内部未使用的 cProfile 辅助函数,引导用户直接使用 Python 原生模块。
此 PR 变更简单直接,无需深入技术分析。对于维护者,值得关注的点在于其遵循了“先弃用后移除”的良好实践,为外部用户提供了明确的迁移路径和版本时间线(v0.21)。
通过后台线程并行化导入和预取,显著减少 vLLM 冷启动时间。
建议精读此 PR,关注后台线程的启动时机(CLI 入口最早点)、错误处理的最佳努力策略,以及设计权衡如线程 vs 进程、条件触发(仅 serve 命令)。对于性能优化和系统启动流程感兴趣的工程师,可从中学习重叠 I/O 和并行化技巧。
原始 PR · 作者 shen-shanshan · 合并时间 2026-04-21 10:31
更新多模态CUDA图文档,确认支持图像+视频混合输入。
此PR是纯粹的文档更新,无需深入阅读代码。对于想了解多模态CUDA图支持边界的开发者,可以快速浏览此文档变更以获取最新信息。关注点在于文档如何反映底层`_execute_mm_encoder`和`group_and_batch_mm_kwargs`的分组批处理机制对混合输入的支持。
原始 PR · 作者 lucianommartins · 合并时间 2026-04-21 10:28
修正 Gemma4 多模态嵌入器中 LayerNorm 顺序
该 PR 值得精读,特别是对于想了解多模态模型中归一化位置对精度影响的研究者。类 docstring 的过时是一个微小残留问题,建议合入前或后续补上。
原始 PR · 作者 chaunceyjiang · 合并时间 2026-04-21 10:09
将注意力层配置日志从 info 降级为 debug,减少默认日志输出。
该 PR 变更简单直接,无需深入精读。对于关注日志治理或希望了解如何控制 vLLM 内部日志输出的开发者,可以留意此模式:在核心模块(如注意力层)中将详细配置日志设为 DEBUG 级别,以保持默认 INFO 日志的清晰。
修复模型配置类注册错误,确保自定义插件模型正确加载。
建议精读此 PR,重点关注双重注册的设计决策,了解如何在保持 `AutoConfig.from_pretrained()` 统一路径的同时处理模型类型不一致问题。对于配置加载模块的开发者,此变更展示了权衡方案和测试验证的最佳实践。
新增 IR 操作测试与基准测试基础设施,支持自动化准确性验证和性能对比。
该 PR 值得精读,因为它展示了如何为 vLLM IR 操作设计可扩展的测试和基准测试基础设施。关注的设计决策包括输入生成器与操作绑定的机制、容忍度覆盖的灵活性,以及跨平台基准测试的实现方式。对于从事测试框架、性能优化或 IR 系统开发的工程师有较高参考价值。
修复共享专家重叠禁用逻辑的回归,确保在EPLB非默认后端和FlashInfer DP场景下正确禁用。
该PR值得精读,重点关注 `_disable_shared_experts_overlap` 属性的设计决策:它如何基于并行配置动态禁用重叠,体现了配置驱动架构的灵活性。此外,清理注释和断言的变化虽小,但反映了代码演进的细心,有助于理解MoE模块的内部控制流。
参与讨论