Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-27

#42694 [KVConnector][Mooncake] Wire reset_cache cascade end-to-end

原始 PR · 作者 aoshen02 · 合并时间 2026-05-27 11:52

缺陷修复重要性 8.11 洞察度 5.00

为 Mooncake 实现 connector reset_cache，修复 RL 权重更新后外部缓存静默过时问题

值得精读，尤其关注 ZMQ admin 通道从隐式约定演进为命名标签协议的设计决策，以及 drain 发送队列 + remove_all 的竞态处理。建议在未来 PR 中强化 process_request 的输入验证和异常捕获，避免后台线程静默失效。

bugfixkv-connectorv1

#43695 Fix test_aot_compile for torch 2.12

原始 PR · 作者 angelayi · 合并时间 2026-05-27 11:12

缺陷修复重要性 4.06 洞察度 3.00

修复 PyTorch 2.12 下 AOT 编译测试失败

此 PR 是适配 PyTorch 2.12 的必要修复，变更简单直接，值得合并。建议后续统一检查其他使用 `VLLM_USE_MEGA_AOT_ARTIFACT` 的测试点，确保 torch 版本升级后的兼容性。

bugfixtestcompilation

#43710 [DSv4] Refactor compressor & Fix ROCm compatibility

原始 PR · 作者 WoosukKwon · 合并时间 2026-05-27 10:56

重构重要性 8.45 洞察度 5.00

重构 DeepSeek V4 compressor 并修复 ROCm 兼容性

建议合并。本次重构显著提升了代码可维护性，并修复了 ROCm 兼容性问题，是向跨平台支持迈出的重要一步。

deepseekrefactorbugfix

#43358 [Deprecation] Deprecate functions as scheduled for v0.21.0

原始 PR · 作者 yewentao256 · 合并时间 2026-05-27 10:56

重构重要性 7.29 洞察度 2.00

移除已废弃的 cprofile 模块和 logit_bias/scale 配置

该 PR 是规范的废弃清理实践，适合作为参考案例：所有废弃项在发布前已提前标记，并附有迁移指南，最终按计划移除。团队成员可关注其文档更新的一致性检查，并注意 PR 作者在 review 过程中及时修复了 reviewer 指出的残留 deprecation note，体现了良好的协作。

cleanuprefactordocumentation

#43325 [MLA][Attention] Add OOT MLA prefill backend registration mechanism

原始 PR · 作者 MatthewBonanni · 合并时间 2026-05-27 10:56

功能重要性 8.28 洞察度 6.00

新增 MLA prefill 后端可插拔注册机制

建议研究与 MLA 预填充后端开发的团队成员精读此 PR，特别是 `register_mla_prefill_backend` 的设计（装饰器+直接注册双模式）和 `CUSTOM` 占位符的处理方式。该设计是可扩展架构的良好范例。

v1attentionfeature

#42095 [Attention] Make FlexAttention and FlashAttention use num-blocks first layouts

原始 PR · 作者 LucasWilkinson · 合并时间 2026-05-27 10:55

重构重要性 7.88 洞察度 7.00

统一 FlexAttention 与 FlashAttention 为 num-blocks 优先的 KV 缓存布局

此 PR 属于核心基础设施变更，建议所有关注注意力后端、KV 连接器和分布式推理的成员精读。其中跨后端布局统一的策略（标准化 shape + stride_order）具有设计参考价值。已知的 int32 overflow 问题需跟踪上游进度，并在 vLLM 侧准备 workaround。

refactorv1attention

#43677 [Perf] Optimize Fp8BlockScaledMMLinearKernel input_scale tensor using new_empty()

原始 PR · 作者 xyang16 · 合并时间 2026-05-27 10:55

性能优化重要性 4.89 洞察度 5.00

FP8块缩放矩阵乘中占位张量优化，吞吐提升2%

值得合并的微小性能优化。设计思路（避免不必要的张量初始化）对其他类似占位符场景有参考价值。建议维护者关注后续是否会有子类误用`As`参数的风险，可考虑在`apply_block_scaled_mm`接口文档中强调`As`在未量化时可能为未初始化值。

performancedeepseekkernel

#43647 [ROCm][CI] Fix ROCm multimodal Qwen2.5-VL activation compile and Phi4MM ragged image mask handling

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-05-27 10:53

缺陷修复重要性 7.15 洞察度 6.00

修复 ROCm 多模态模型编译与 Phi4MM 图片 mask 处理

值得精读：理解 ROCm 上绕过原生编译的技巧以及变长张量填充的通用模式（`stack_with_pad`）。关注 `get_act_and_mul_fn` 的设计扩展性。

rocmbugfixqwen

第 35 / 269 页 · 共 2148 条

上一页 1 … 33 34 35 36 37 … 269 下一页