Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-29
重构 重要性 7.53 洞察度 6.00

迁移注意力与缓存内核至 torch stable ABI

此 PR 是持续 ABI 迁移的重要一环,值得核心开发者精读。重点关注 `concat_mla_q` 调度类型迁移的修复过程、头文件移动策略的讨论、以及 `quant_utils.cuh` 部分稳定性的权衡。这些模式将指导后续阶段。 普通审阅者应关注构建是否正确、测试是否覆盖以避免回归。 建议团队在后续 PR 中尽快完成 `quant_utils.cuh` 的完全迁移,并考虑为缓存操作添加更多单元测试。

#43234 [Refactor] Remove dead code

原始 PR · 作者 yewentao256 · 合并时间 2026-05-29 12:29

重构 重要性 6.88 洞察度 3.00

跨模块移除不可达死代码与废弃配置

该 PR 是良好的常规清理,值得关注每个删除项的理由。尤其推荐注意 longcat_flash_mtp 分支被前序逻辑覆盖的设计模式,以及 fused_moe 中如何通过删除参数来消除死分支。对于代码审查者,建议验证每个删除确实无外部依赖。

性能优化 重要性 6.62 洞察度 5.00

跳过 decode 阶段 KV block 的 CPU 卸载

值得精读,特别是如何通过 clamp 操作实现大幅性能提升,以及 Review 过程中设计演进(默认值、命名)的决策思路。

#42288 Adjust design around encoder_cudagraph_forward

原始 PR · 作者 wdhongtw · 合并时间 2026-05-29 11:02

重构 重要性 7.52 洞察度 6.00

简化 encoder CUDA graph 接口,统一输入结构

值得精读。该 PR 展示了围绕“函数签名应与捕获图一致”这一核心原则进行抽象重构的过程,设计权衡清晰(分离 vs 合并 input/metadata)。对理解 vLLM 多模态 CUDA graph 机制和架构演进方向(RFC #38175)很有帮助,也揭示了如何通过接口调整支持非 GPU 后端。

功能 重要性 8.87 洞察度 5.00

新增 GLMGA/GLM-4.6V-Flash 多模态支持

该 PR 实现了必要的新模型支持,但存在若干风险点(除零、类型安全、断言硬失败),建议在后续 PR 中修复。值得关注的决策包括:通过处理器类名探测变体、视频帧偶数填充以符合 HF temporal patch 要求。

参与讨论