Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-29

#42822 add gelu_tanh to xpu moe backend supported activations

原始 PR · 作者 yintong-lu · 合并时间 2026-05-29 14:37

缺陷修复重要性 4.90 洞察度 2.00

XPU MoE 支持 gelu_tanh 激活函数

该 PR 为简单的兼容性修复，建议快速合并，但需确保关联的 xpu-kernels PR 已合入并更新依赖。

bugfixintel-gpumoe

#43712 [CI] Separate non-root smoke tests from image build step

原始 PR · 作者 khluu · 合并时间 2026-05-29 14:34

基础设施重要性 3.73 洞察度 2.00

将非 root smoke 测试从镜像构建步骤中分离

建议快速合并。这是一个纯粹的 CI 改进，逻辑清晰，风险极低，能有效提升 CI 可见性和效率。

ci/buildcleanup

#43717 [9/n] Migrate attention and cache kernels to torch stable ABI (continued)

原始 PR · 作者 cleonard530 · 合并时间 2026-05-29 12:44

重构重要性 7.53 洞察度 6.00

迁移注意力与缓存内核至 torch stable ABI

此 PR 是持续 ABI 迁移的重要一环，值得核心开发者精读。重点关注 `concat_mla_q` 调度类型迁移的修复过程、头文件移动策略的讨论、以及 `quant_utils.cuh` 部分稳定性的权衡。这些模式将指导后续阶段。普通审阅者应关注构建是否正确、测试是否覆盖以避免回归。建议团队在后续 PR 中尽快完成 `quant_utils.cuh` 的完全迁移，并考虑为缓存操作添加更多单元测试。

refactorattentionkernel

#43234 [Refactor] Remove dead code

原始 PR · 作者 yewentao256 · 合并时间 2026-05-29 12:29

重构重要性 6.88 洞察度 3.00

跨模块移除不可达死代码与废弃配置

该 PR 是良好的常规清理，值得关注每个删除项的理由。尤其推荐注意 longcat_flash_mtp 分支被前序逻辑覆盖的设计模式，以及 fused_moe 中如何通过删除参数来消除死分支。对于代码审查者，建议验证每个删除确实无外部依赖。

refactorcleanupmodel

#43797 [kv_offload] Skip decode-phase blocks in CPU offload

原始 PR · 作者 Etelis · 合并时间 2026-05-29 11:39

性能优化重要性 6.62 洞察度 5.00

跳过 decode 阶段 KV block 的 CPU 卸载

值得精读，特别是如何通过 clamp 操作实现大幅性能提升，以及 Review 过程中设计演进（默认值、命名）的决策思路。

performancev1kv-connector

#43277 [XPU] add scale transpose to prepare_fp8_moe_layer_for_xpu and bump up kernels

原始 PR · 作者 mayuyuace · 合并时间 2026-05-29 11:22

缺陷修复重要性 5.68 洞察度 3.00

XPU FP8 MoE 层支持 scale 转置

该 PR 修复了一个明确的 bug，改动量小且正确性经过 review 确认。值得合并，但建议后续补充针对不同 scale 维度的单元测试。

bugfixintel-gpuquantization

#42288 Adjust design around encoder_cudagraph_forward

原始 PR · 作者 wdhongtw · 合并时间 2026-05-29 11:02

重构重要性 7.52 洞察度 6.00

简化 encoder CUDA graph 接口，统一输入结构

值得精读。该 PR 展示了围绕“函数签名应与捕获图一致”这一核心原则进行抽象重构的过程，设计权衡清晰（分离 vs 合并 input/metadata）。对理解 vLLM 多模态 CUDA graph 机制和架构演进方向（RFC #38175）很有帮助，也揭示了如何通过接口调整支持非 GPU 后端。

refactorv1cudagraph

#43575 [feat] add GlmgaProcessor specific logits in `glm4_1v.py`

原始 PR · 作者 JaredforReal · 合并时间 2026-05-29 10:56

功能重要性 8.87 洞察度 5.00

新增 GLMGA/GLM-4.6V-Flash 多模态支持

该 PR 实现了必要的新模型支持，但存在若干风险点（除零、类型安全、断言硬失败），建议在后续 PR 中修复。值得关注的决策包括：通过处理器类名探测变体、视频帧偶数填充以符合 HF temporal patch 要求。

featuremulti-modalitymodel

第 23 / 269 页 · 共 2148 条

上一页 1 … 21 22 23 24 25 … 269 下一页