Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-02

#44299 [Rust Frontend] Support recursive tool parameter conversion

原始 PR · 作者 BugenZhao · 合并时间 2026-06-02 22:45

重构重要性 7.38 洞察度 6.00

支持递归工具参数类型转换

建议合并，但需关注空字符串行为变化，考虑补充对应测试或文档说明。设计模式值得学习：使用 `Into<ParamInput>` 桥接新旧输入，以及递归模式处理策略。

frontendrefactorparser

#44168 [XPU] [Bug] remove xpuw4a16 output size check

原始 PR · 作者 zufangzhu · 合并时间 2026-06-02 22:26

缺陷修复重要性 5.61 洞察度 2.00

移除 XPU W4A16 kernel 的输出尺寸检查

该 PR 值得合入，属于必要的约束放宽，应尽快集成到发布版本中。鉴于无相关测试，建议后续增加对非 32 倍数输出尺寸的端到端推理测试。

bugfixintel-gpukernel

#43978 [BugFix] [GDN] Read linear_key_head_dim from hf_text_config for multimodal models

原始 PR · 作者 IdoAtadTD · 合并时间 2026-06-02 22:17

缺陷修复重要性 5.60 洞察度 4.00

修复多模态模型 GDN prefill 后端选择 bug

此 PR 是典型的数据契约 bugfix，改动极小但影响关键路径，值得快速合入。建议关注类似的多模态配置属性访问模式，并在仓库内建立统一使用 `hf_text_config` 的惯例。

bugfixmodelkernel

#44065 [FlashAttention] Sync FA with upstream

原始 PR · 作者 MatthewBonanni · 合并时间 2026-06-02 22:15

基础设施重要性 2.69 洞察度 2.00

同步 flash-attention 上游依赖的 GIT_TAG

此 PR 为常规依赖同步，无特殊技术价值，但值得留意 future 中是否因版本升级引入问题。

infraci/build

#44282 [Bugfix] Vendor MiniCPMV/MiniCPMO processors to unblock Transformers v5

原始 PR · 作者 wjinxu · 合并时间 2026-06-02 22:14

缺陷修复重要性 9.18 洞察度 4.00

Vendor MiniCPMV/MiniCPMO 处理器以解锁 Transformers v5 升级

建议开发者关注 vendor 处理器与上游的差异，确保后续 Transformers 升级时及时同步更新。此 PR 采用的 vendor 策略（直接复制关键依赖）适用于其他类似场景，但需评估长期维护成本。同时，建议增加更多端到端测试以覆盖新处理器的各种输入组合。

bugfixmulti-modalityrefactor

#42958 Support ModelOpt MXFP8 non-gated MoE

原始 PR · 作者 TomerBN-Nvidia · 合并时间 2026-06-02 21:56

功能重要性 6.14 洞察度 4.00

为 MXFP8 MoE 添加对 RELU2_NO_MUL 激活的支持

该 PR 功能明确、改动集中，评审无重大分歧，建议合并。但精读价值不高，主要关注点在于如何通过条件分支兼容不同激活和量化模式的设计模式。未来应考虑将 TRTLLM MXFP8 MoE 集成到统一 oracle 路径。

quantizationnvidiafeature

#44232 [Bugfix] Fix Gemma4 startup crash with recent transformers multimodal processor

原始 PR · 作者 lucianommartins · 合并时间 2026-06-02 21:42

缺陷修复重要性 6.92 洞察度 4.00

修复 Gemma4 启动时因 transformers 升级导致的崩溃

建议批准合并，修复明确且无副作用。同时建议后续为 `Gemma4MultiModalProcessor` 的 `_apply_hf_processor_text_only` 添加单元测试，防止类似回归。

bugfixfrontendmulti-modality

#42967 [Bugfix] Sync block_size from EngineCore to frontend for hybrid Mamba…

原始 PR · 作者 Gruner-atero · 合并时间 2026-06-02 21:41

缺陷修复重要性 6.21 洞察度 5.00

修复混合Mamba模型block_size同步问题

该 PR 是一个针对明确 bug 的精准修复，改动量小，逻辑清晰，且带有单元测试。值得精读，尤其是理解 `_align_hybrid_block_size` 对 block_size 的影响以及 `EngineCoreReadyResponse` 的同步机制。对于维护监控指标正确性的开发者有参考价值。

bugfixv1model

第 10 / 269 页 · 共 2148 条

上一页 1 … 8 9 10 11 12 … 269 下一页