#40454 Default to 'align' mamba cache mode for Mamba-based models when speculative decoding is enabled
原始 PR · 作者 roikoren755 · 合并时间 2026-04-21 22:51
默认 Mamba 缓存模式在推测解码时改为 align
值得精读,尤其是理解 Mamba 模型在不同配置下的缓存模式选择逻辑。变更简洁,但涉及对推测解码兼容性的设计权衡。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 roikoren755 · 合并时间 2026-04-21 22:51
默认 Mamba 缓存模式在推测解码时改为 align
值得精读,尤其是理解 Mamba 模型在不同配置下的缓存模式选择逻辑。变更简洁,但涉及对推测解码兼容性的设计权衡。
原始 PR · 作者 shen-shanshan · 合并时间 2026-04-21 22:47
优化ViT CUDA图视频推理的默认帧数自动推断,从硬编码改为模型感知。
建议技术管理者和工程师精读此PR,关注协议扩展和模型感知推断的设计决策,以及review中解决缓存问题的权衡,有助于理解vLLM多模态CUDA图路径的演进。
原始 PR · 作者 zxd1997066 · 合并时间 2026-04-21 22:30
新增Intel GPU的CI测试配置,覆盖misc、engine和lora组件。
对于负责CI基础设施、测试或Intel GPU支持的工程师,建议浏览新增的YAML配置文件以了解测试组织方式和硬件特定调整;但变更主要涉及配置和脚本调整,无需深入源码精读,可重点关注review中讨论的风险点。
原始 PR · 作者 HollowMan6 · 合并时间 2026-04-21 22:17
扩展LoRA专家权重加载逻辑,支持Qwen3.5和Step3.x模型的`.base_layer`前缀。
该PR值得精读,特别是了解LoRA权重加载中动态参数映射的设计决策,以及如何平衡向后兼容性和功能扩展。关注条件检测的实现和专家映射表的调整方式。
更新批次不变性文档,添加两个已验证的 Qwen3 AWQ 模型。
对于大多数工程师,无需精读此 PR。它仅是一个简单的文档更新。值得关注的点在于:它反映了 vLLM 项目对批次不变性功能测试覆盖的持续完善,以及文档与代码实现保持同步的实践。
修复 vllm bench serve 中数据集参数顺序依赖的验证错误。
建议精读此 PR,特别是了解如何从 argparse Action 迁移到显式验证以解决顺序依赖问题,这对设计命令行参数验证有参考价值。
原始 PR · 作者 artem-spector · 合并时间 2026-04-21 20:43
新增 Granite 4.1 Vision 内置多模态模型支持,集成 SigLip 视觉编码器和深度堆叠特征注入。
该 PR 值得精读,特别是关注深层特征注入的设计(参考 Qwen3-VL 模式)和 Pipeline Parallelism 集成方式。建议工程师学习缓冲区管理和线程安全实践,以及如何处理尚未 upstream 的模型配置。
移除前端池化多任务支持,强制通过 PoolerConfig 显式指定任务。
建议工程师阅读此 PR 以了解池化任务配置的变更,特别关注 `get_pooling_task` 方法的引入和示例更新。对于维护者,此 PR 展示了如何系统性地移除功能并同步更新文档和测试。
参与讨论