Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 09:45 同步状态：空闲下次计划：2026-06-04 10:45

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-14

#42126 [CI][AMD] Skip tests where models have problems or fails on both HW types

原始 PR · 作者 rasmith · 合并时间 2026-05-14 16:21

测试重要性 4.77 洞察度 2.00

跳过 ROCm 上已知有问题的多模态测试

值得合入以保持 CI 稳定性。PR 本身是临时缓解措施，建议跟踪关联 issue 并在上游模型修复后移除这些跳过标记。

testrocmmulti-modality

#40453 Update Dockerfile.rocm for AINIC & Thor NIC

原始 PR · 作者 haic0 · 合并时间 2026-05-14 15:24

基础设施重要性 5.09 洞察度 5.00

为 ROCm 镜像添加 AINIC 和 Thor-2 NIC 驱动支持

该 PR 是基础设施增强而非功能性变更，对 ROCm 多节点用户至关重要。值得关注的设计决策包括：默认安装所有 NIC 以减少认知负担（类似 SGLang 做法）、提供 none 选项兼容不使用 MoRI 的场景、以及明确的版本参数化。对于需要构建定制 ROCm 镜像的团队，此 PR 提供了可复用的模式。建议阅读 Dockerfile 中的函数封装和 case 分支，理解如何在 Docker 构建中灵活管理多方驱动。

rocminfraci/build

#42434 Revert "[Core] Replace routing replay with device cache and async D2H pipeline" (#39917)

原始 PR · 作者 aoshen02 · 合并时间 2026-05-14 14:49

重构重要性 9.18 洞察度 5.00

回退MoE路由捕获机制到共享内存方案

建议密切关注被回退的 device cache 方案与后续 #39568 的演进关系。核心设计决策（共享内存 vs. device pipeline）值得深入阅读 `routed_experts_capturer.py` 中的注释和实现差异。对于直接使用 `routed_experts` API 的客户，需评估移除字段的影响。

moev1refactor

#41778 [MLA Attention Backend] Add TOKENSPEED_MLA backend for DSR1/Kimi K25 prefill + decode on Blackwell

原始 PR · 作者 zyongye · 合并时间 2026-05-14 14:48

功能重要性 9.00 洞察度 5.00

为 V1 注意力子系统新增 TOKENSPEED_MLA 后端，优化 Blackwell SM100 上 DeepSeek R1 的 prefill / decode。

值得精读。本 PR 展示了如何在 V1 注意力后端生态中集成一个高性能定制后端，从 backend 类实现、注册、platform 优先级到测试和 benchmark 的最佳实践均有涉及。review 中指出的 scale 缓存和 fallback 设计问题可作为后续改进的参考。建议关注后续修复提交（若有）以解决遗留风险。

performancev1nvidia

#42098 Use hidden_pad and intermediate_pad from vLLM #34301

原始 PR · 作者 rebklee · 合并时间 2026-05-14 14:21

缺陷修复重要性 5.78 洞察度 5.00

修复 ROCm Aiter MoE padding 对齐问题提升性能

值得合并。改动小而精，有明确的性能收益和充分的 benchmark 数据支持。建议关注后续对非标准形状模型的进一步验证。

rocmbugfixmoe

#42598 [CI][XPU] skip ut of offload connector

原始 PR · 作者 zhenwei-intel · 合并时间 2026-05-14 13:13

基础设施重要性 2.55 洞察度 2.00

跳过 XPU CI 中 offload connector 测试

该 PR 为小型 CI 配置修复，无需精读。但可关注关联 PR #36423 的进展，以便及时恢复测试。

infraintel-gpuci

#42441 [Misc] Fix mypy error in parser_manager type narrowing

原始 PR · 作者 Sarah-Salah · 合并时间 2026-05-14 10:49

缺陷修复重要性 3.87 洞察度 2.00

修复 ParserManager 中 mypy 类型收窄错误

值得合并。虽然改动微小，但修复了类型检查的正确性，且遵循了项目中已有的惯用法。

cleanupbugfixinfra

#42521 [Fix] Weight loading for qwen3_5 using runai_streamer

原始 PR · 作者 hks-9697-v2 · 合并时间 2026-05-14 10:36

缺陷修复重要性 5.08 洞察度 3.00

修复 Qwen3.5 权重加载参数传递问题

值得快速合并，修复明确，改动极小。

bugfixqwenmodel

第 80 / 269 页 · 共 2150 条

上一页 1 … 78 79 80 81 82 … 269 下一页