#39411 [CI/Build] Fix memory cleanup in MM test
作者 DarkLight1337 · 合并时间 2026-04-09 23:50
修复多模态内存泄漏测试中的进程清理问题,避免CI失败。
该PR值得快速浏览以了解CI修复策略,但无需深入代码细节。重点关注review中提到的进程清理缺陷,建议团队后续评估是否修复@create_new_process_for_each_test的实现。
A high-throughput and memory-efficient inference and serving engine for LLMs
作者 DarkLight1337 · 合并时间 2026-04-09 23:50
修复多模态内存泄漏测试中的进程清理问题,避免CI失败。
该PR值得快速浏览以了解CI修复策略,但无需深入代码细节。重点关注review中提到的进程清理缺陷,建议团队后续评估是否修复@create_new_process_for_each_test的实现。
作者 DarkLight1337 · 合并时间 2026-04-09 21:20
改进多模态输入过长错误信息,避免长度与音视频时长混淆。
该PR变更简单,无需精读,但可作为错误信息设计的最佳实践参考:使用明确术语(如“embedding tokens”)避免歧义。对于关注多模态输入处理或错误处理设计的工程师,可快速浏览以了解如何优化用户反馈。
作者 zou3519 · 合并时间 2026-04-09 20:49
修复MoE层测试因PyTorch 2.11不透明类型变更导致的层名处理错误。
该PR变更简单直接,主要用于修复测试逻辑,无需深入精读。值得关注的点是HAS_OPAQUE_TYPE变量的使用,它反映了vLLM对PyTorch不透明类型支持的适配策略。建议开发者了解此变量在代码库中的其他使用场景,以理解整体兼容性设计。
作者 lalit10 · 合并时间 2026-04-09 19:54
新增Qwen3-VL多模态模型内存泄漏检测测试,提升稳定性验证。
对于关注多模态模型测试或内存管理的工程师,此PR值得精读,以学习如何设计内存泄漏检测测试和权衡阈值设置。重点关注测试逻辑中的内存测量方法和泄漏检测策略。
作者 askliar · 合并时间 2026-04-09 19:44
修复Nemotron-Nano-VL音频预提取崩溃,支持在vllm serve时传递use_audio_in_video参数。
该PR值得精读,特别是学习如何静态解析模型参数以避免HF处理器实例化开销,以及多模态数据处理中优雅处理缺失音频的设计决策。关注review中未解决的异步I/O性能问题,可能需后续PR优化;同时,代码简化建议可为类似重构提供参考。
作者 njhill · 合并时间 2026-04-09 18:56
简化API服务器握手流程,统一参数传递以避免延迟启动。
建议工程师阅读此PR以了解握手流程的改进,特别是在分布式设置和API服务器启动方面。关注 `EngineCoreReadyResponse` 的变更和 `_apply_ready_response` 方法的逻辑,这有助于理解系统如何统一处理后初始化配置。
作者 hmellor · 合并时间 2026-04-09 18:35
将主README的更新内容同步到文档站README,提升文档准确性和完整性。
该PR变更简单直接,无需精读。对于文档维护者,可关注如何保持docs/README.md与主README的同步机制;对于普通工程师,无需特别关注。
作者 noooop · 合并时间 2026-04-09 18:09
重构池化入口点架构,引入模块化IO处理器并移除直接依赖。
建议技术管理者关注此PR以理解池化架构演进方向,工程师值得精读vllm/entrypoints/pooling/base/io_processor.py和io_processor_factories.py学习工厂模式设计。重点关注:1. 如何用PoolingIOProcessor抽象统一任务处理;2. review中讨论的错误处理改进和向后兼容权衡;3. 移除io_processor属性的决策对系统解耦的影响。
参与讨论