Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 04:32 同步状态：空闲下次计划：2026-05-31 05:32

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-01

#41228 [kv_offload+HMA][12/N]: Scheduler-side support for sliding window groups

原始 PR · 作者 orozery · 合并时间 2026-05-01 11:59

功能重要性 9.04 洞察度 5.00

OffloadingConnector 调度器支持滑动窗口和 Mamba KV 缓存组

建议有相关背景的开发者精读本 PR，重点关注滑动窗口块的生命周期设计、`_touch` 的 LRU 更新策略，以及 `_remove_pending_job` 的安全性讨论。非直接涉及 KV offload 的成员可略读了解架构演化。

kv-connectorschedulerrefactor

#41050 [Kernel][MoE] Support GELU on TRT-LLM NvFP4 fused MoE for Gemma4

原始 PR · 作者 juhi10071998 · 合并时间 2026-05-01 11:37

缺陷修复重要性 6.69 洞察度 5.00

为 TRT-LLM NvFP4 MoE 启用 GELU 激活，支持 Gemma4

值得精读，尤其是 `_supports_activation` 集中管理激活列表的设计模式，以及 kernel 测试中如何校准 NvFP4 精度误差。同时展示了通过 Python 层启用 GPU 内核功能的低风险思路。

bugfixmoenvidia

#40808 [Bugfix] Disable FlashInfer CUTLASS MoE on SM110 (Jetson Thor AGX)

原始 PR · 作者 stecasta · 合并时间 2026-05-01 11:08

缺陷修复重要性 5.41 洞察度 4.00

禁用 SM110 的 FlashInfer CUTLASS MoE 回退到 Triton

这是一个简单而正确的临时修复，值得精读。关注点：`_supports_current_device()` 的设计模式——通过白名单控制硬件特性选择；以及关联 PR #36286 引入的 oracle 流程如何自动暴露此前隐藏的兼容性问题。团队应跟踪上游 FlashInfer 是否发布 SM110 cubin 以移除此限制。

bugfixmoenvidia

#41361 [KV Offload] Use `Collection` instead of `Sequence/Iterable` for OffloadingManager key parameters

原始 PR · 作者 ronensc · 合并时间 2026-05-01 10:18

重构重要性 6.34 洞察度 3.00

统一 KV offload 方法签名为 Collection 类型

值得快速合并。此 PR 是纯类型清理，逻辑无误，风险极低。开发者可学习其对 Python 类型系统层次结构（`Collection` vs `Sequence` vs `Iterable`）的合理运用。

refactorcleanupkv-connector

#32325 [Model] Add Moondream3 model support(only query and caption skills)

原始 PR · 作者 sniper35 · 合并时间 2026-05-01 10:06

功能重要性 9.00 洞察度 6.00

新增Moondream3模型，支持Query和Caption

建议阅读，尤其是`reconstruct_from_crops`函数和`Moondream3Processor`的设计，展示了如何将视觉预处理封装在processor中，保持模型核心简洁。此外，Moondream3的prefix-LM实现和MoE配置为其他类似模型提供参考。

modelmulti-modalityfeature

#40720 feat: Enable `prompt_embeds` Content Part Support in vLLM Chat Completions API

原始 PR · 作者 LuisRobaina · 合并时间 2026-05-01 10:05

功能重要性 9.18 洞察度 6.00

Chat Completions API 新增 prompt_embeds 内容部分

值得精读。本 PR 展示了在 vLLM 多模态框架中添加新内容类型的完整流程：占位符 token 注册、Chat 消息解析、token 序列展开、嵌入替换、以及嵌入验证。设计模式可复用，对于需要扩展输入模态的开发者有重要参考。讨论中关于 V0/V1 引擎差异也值得关注。

featurefrontenddocumentation

#41341 [ROCm][CI] Add ROCm score absolute tolerance floor

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-05-01 09:59

测试重要性 4.97 洞察度 4.00

ROCm 测试绝对值容差优化

该 PR 值得快速合入，因为它是针对特定硬件平台测试稳定性的低风险调整。设计决策（绝对值与相对值组合）值得参考，但无需深入研读。

rocmtestbugfix

#41363 (bugfix): block_size check for flex attn

原始 PR · 作者 JisoLya · 合并时间 2026-05-01 09:59

缺陷修复重要性 4.22 洞察度 3.00

修复 flex attention 对 block_size < 16 的支持检查

建议精读此 PR 以理解 vLLM 中 attention 后端 `get_supported_kernel_block_sizes` 的设计模式，未来添加新后端时需类似实现。

bugfixattentiondocumentation

第 111 / 253 页 · 共 2019 条

上一页 1 … 109 110 111 112 113 … 253 下一页