Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-29

#43857 Add vLLM library info to Hugging Face Hub requests

原始 PR · 作者 Wauplin · 合并时间 2026-05-29 22:04

功能重要性 7.31 洞察度 4.00

集中 HF Hub 调用并附带 vLLM 库标识

值得精读，尤其是 `repo_utils.py` 中的设计模式（单例 + library tagging）。对于计划集成外部服务的项目有借鉴意义。建议合入后通知团队遵循新的调用约定。

refactorcleanupinfra

#43977 [Bugfix][CPU] Remove invalid extra deps

原始 PR · 作者 bigPYJ1151 · 合并时间 2026-05-29 22:02

重构重要性 4.71 洞察度 5.00

移除 CPU 构建中无效的 triton-cpu 依赖

值得精读，尤其是学习如何将不稳定的外部依赖从 Python 包声明迁移到容器构建阶段，以提高跨平台兼容性。Docker 多阶段构建中条件化构建外部依赖的技巧具有通用参考价值。

cpuinfracleanup

#43972 Skip docs build if PR doesn't affect docs

原始 PR · 作者 hmellor · 合并时间 2026-05-29 20:09

基础设施重要性 4.14 洞察度 3.00

PR 无文档变更时跳过 ReadTheDocs 构建

建议合并。这是一次精益的 CI 优化，改动小、收益明确、风险可控。代码注释清晰（第二 commit 补充了路径说明），后续维护成本低。

ci/builddocumentationinfra

#43961 [Bugfix] Corrupted MLA + linear attention

原始 PR · 作者 gau-nernst · 合并时间 2026-05-29 20:00

缺陷修复重要性 6.26 洞察度 5.00

修复 MLA 注意力 KV 缓存腐败

值得合并，修复明确，风险极低。建议 reviewer 额外关注是否还有其他 attention spec 被遗漏（如未来的新类型），可考虑 vadiklyutiy 建议的简化方案——无条件清零所有新分配 block。另外，建议在开发者文档中记录哪些 attention kernel 需要清零 KV cache block。

bugfixv1attention

#42982 [ROCm][Perf] DSv3.2 MI355X TP4 decode-step orchestration cleanup (3 micro-opts)

原始 PR · 作者 frida-andersson · 合并时间 2026-05-29 19:26

性能优化重要性 7.00 洞察度 6.00

ROCm DSv3.2 解码三步 CPU 微优化，减延迟 ~3%

值得精读，尤其是元数据缓存和 shrink-tail 设计思路。注意事项：缓存键缺少对 `seq_lens_cpu` 不可用的保护，建议团队在合并时确认该场景；后续应增加单元测试覆盖缓存逻辑。

performancerocmv1

#42595 [Bugfix] [ROCm] [DSV4] Fix AITER MXFP4 MoE weight loading and shuffle…

原始 PR · 作者 MHYangAMD · 合并时间 2026-05-29 19:08

缺陷修复重要性 7.30 洞察度 6.00

修复 DSv4 AITER MoE 权重加载与 shuffle 三大 Bug

建议精读。该 PR 修复了 DeepSeek-V4 在 ROCm 上的关键障碍，并通过一次性能显著提升验证了 AITER FlyDSL MoE 的实用性。尤其值得关注 TP 分片偏移的修正逻辑，以及 AITER 原生 shuffle 函数的对接方式，这为后续其他 MXFP4 后端的同类问题提供了参考。

bugfixrocmdeepseek

#41394 [Kernel][ROCm] Native W4A16 kernel for AMD RDNA3 (gfx1100) — fp16 + bf16

原始 PR · 作者 JartX · 合并时间 2026-05-29 19:04

功能重要性 9.36 洞察度 8.00

RDNA3 原生 W4A16 内核，fp16/bf16 性能飞跃

值得所有 AMD ROCm 平台开发者精读，尤其关注 C++ HIP 内核实现（标量 dot-product vs WMMA 调度、LDS 双缓冲、LLVM 编译器 bug 变通）和 Python 监听门控模式。对于量化推理优化者，该 PR 提供了一个针对消费级 GPU 极致优化的参考案例。

rocmperformancev1

#37622 [Bugfix] Fix Step3 pipeline parallel KeyError for residual tensor

原始 PR · 作者 JMonde · 合并时间 2026-05-29 18:04

缺陷修复重要性 5.06 洞察度 3.00

修复 Step3 模型流水线并行中 residual 的 KeyError

值得合并，修复明确且低风险。建议团队后续为流水线并行的 IntermediateTensors 初始化编写单元测试，防止类似问题在新模型中复现。

bugfixmodelv1

第 21 / 269 页 · 共 2148 条

上一页 1 … 19 20 21 22 23 … 269 下一页