OffloadingConnector 调度器支持滑动窗口和 Mamba KV 缓存组
建议有相关背景的开发者精读本 PR,重点关注滑动窗口块的生命周期设计、`_touch` 的 LRU 更新策略,以及 `_remove_pending_job` 的安全性讨论。非直接涉及 KV offload 的成员可略读了解架构演化。
A high-throughput and memory-efficient inference and serving engine for LLMs
OffloadingConnector 调度器支持滑动窗口和 Mamba KV 缓存组
建议有相关背景的开发者精读本 PR,重点关注滑动窗口块的生命周期设计、`_touch` 的 LRU 更新策略,以及 `_remove_pending_job` 的安全性讨论。非直接涉及 KV offload 的成员可略读了解架构演化。
原始 PR · 作者 juhi10071998 · 合并时间 2026-05-01 11:37
为 TRT-LLM NvFP4 MoE 启用 GELU 激活,支持 Gemma4
值得精读,尤其是 `_supports_activation` 集中管理激活列表的设计模式,以及 kernel 测试中如何校准 NvFP4 精度误差。同时展示了通过 Python 层启用 GPU 内核功能的低风险思路。
禁用 SM110 的 FlashInfer CUTLASS MoE 回退到 Triton
这是一个简单而正确的临时修复,值得精读。关注点:`_supports_current_device()` 的设计模式——通过白名单控制硬件特性选择;以及关联 PR #36286 引入的 oracle 流程如何自动暴露此前隐藏的兼容性问题。团队应跟踪上游 FlashInfer 是否发布 SM110 cubin 以移除此限制。
统一 KV offload 方法签名为 Collection 类型
值得快速合并。此 PR 是纯类型清理,逻辑无误,风险极低。开发者可学习其对 Python 类型系统层次结构(`Collection` vs `Sequence` vs `Iterable`)的合理运用。
新增Moondream3模型,支持Query和Caption
建议阅读,尤其是`reconstruct_from_crops`函数和`Moondream3Processor`的设计,展示了如何将视觉预处理封装在processor中,保持模型核心简洁。此外,Moondream3的prefix-LM实现和MoE配置为其他类似模型提供参考。
原始 PR · 作者 LuisRobaina · 合并时间 2026-05-01 10:05
Chat Completions API 新增 prompt_embeds 内容部分
值得精读。本 PR 展示了在 vLLM 多模态框架中添加新内容类型的完整流程:占位符 token 注册、Chat 消息解析、token 序列展开、嵌入替换、以及嵌入验证。设计模式可复用,对于需要扩展输入模态的开发者有重要参考。讨论中关于 V0/V1 引擎差异也值得关注。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-05-01 09:59
ROCm 测试绝对值容差优化
该 PR 值得快速合入,因为它是针对特定硬件平台测试稳定性的低风险调整。设计决策(绝对值与相对值组合)值得参考,但无需深入研读。
修复 flex attention 对 block_size < 16 的支持检查
建议精读此 PR 以理解 vLLM 中 attention 后端 `get_supported_kernel_block_sizes` 的设计模式,未来添加新后端时需类似实现。
参与讨论