Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 10:58 同步状态：空闲下次计划：2026-06-04 11:58

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-18

#42611 [KV Connector][Offloading] Flush all pending jobs on last step

原始 PR · 作者 liranschour · 合并时间 2026-05-18 20:59

缺陷修复重要性 6.38 洞察度 5.00

末步 flush 所有待定 KV 转移作业

建议关注 `build_connector_meta` 中的 flush 触发逻辑，以及其与 `is_finished()` 的关联。对于维护 KV offloading 的读者，这个 PR 的 review 讨论具有参考价值。

kv-connectorv1bugfix

#42954 [XPU][CI] Temporarily skip test_moe_lora_align_block_size_mixed_base_and_lora[1] in Intel GPU CI

原始 PR · 作者 zxd1997066 · 合并时间 2026-05-18 20:34

其他重要性 2.55 洞察度 1.00

暂时跳过 Intel GPU CI 中一个不稳定的 MoE LoRA 测试

这是一次临时性的、低风险的 CI 稳定性应急措施，不建议精读。但应提醒团队在后续尽快修复被跳过的测试用例，并恢复执行。

ci/buildintel-gpulora

#42955 [MRv2] Default to MRv1 when a connector is present

原始 PR · 作者 NickLucche · 合并时间 2026-05-18 20:34

缺陷修复重要性 5.51 洞察度 5.00

KV Connector 存在时默认回退 MRv1

建议精读此 PR 的处理思路：临时降级而非禁用 MRv2，体现了兼容性折中。同时建议关注后续对 `is_kv_transfer_instance` 属性的接入，以精细化降级条件。

bugfixkv-connectorv1

#41233 [Bugfix][Hybrid][NemotronH] Fix mamba_cache_mode=all + speculative decoding crash

原始 PR · 作者 roikoren755 · 合并时间 2026-05-18 19:54

缺陷修复重要性 8.66 洞察度 7.00

修复 Mamba 混合模型 all 缓存 + 推测解码崩溃

值得精读，特别是 `mamba_mixer2.py` 中 gather 逻辑的设计——通过预计算偏移量一次 gather 多个槽位而非逐 token 操作，是处理 speculative slots 的优雅模式。review 中对 helper 函数是否内敛的讨论也展示了重构取舍。

bugfixv1model

#42945 [Bugfix][KV Offload] count appended GPU blocks in store group_sizes

原始 PR · 作者 kfirtoledo · 合并时间 2026-05-18 19:36

缺陷修复重要性 4.93 洞察度 3.00

修复 KV Offload 计数 bug，1 行代码变动

建议快速合并。该 PR 虽小但精准，修复了一个真实触发断言的 bug，值得关注其背后的窗口跨越边界场景设计约束。

bugfixv1kv-connector

#41710 fix: remove unused norm for dpskv4

原始 PR · 作者 inisis · 合并时间 2026-05-18 18:33

缺陷修复重要性 5.18 洞察度 3.00

移除 DPSKV4 未使用的 k_norm LayerNorm

该 PR 值得合并，是一个正确的清理修复。建议关注后续是否还有其他未使用的层或权重需要清理，以保持代码整洁。

bugfixdeepseekmodel

#41922 [CPU] Add MXFP4 W4A16 MoE support

原始 PR · 作者 yuwenzho · 合并时间 2026-05-18 18:04

功能重要性 9.00 洞察度 6.00

CPU 新增 MXFP4 W4A16 融合 MoE 内核支持

值得精读。该 PR 完整演示了如何在 vLLM 模块化 MoE 架构中集成一个新的量化后端（MXFP4），并涉及 C++ 模板泛化、Python 层路由、测试重构等最佳实践。`CPUExpertsMxfp4` 类的接口实现方式可作为类似后端的参考。

cpufeaturekernel

#42666 [CPU Backend] Improve cpu thread utilization

原始 PR · 作者 tianmu-li · 合并时间 2026-05-18 18:04

性能优化重要性 5.49 洞察度 4.00

优化 CPU 后端线程利用率

推荐合并。这是一个精准且经过基准验证的性能优化，改动量小（+4/-6），风险极低。对于 vLLM CPU 用户，建议关注此 PR 后的性能变化。

performancecpuattention

第 68 / 270 页 · 共 2154 条

上一页 1 … 66 67 68 69 70 … 270 下一页