Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 09:45 同步状态:空闲 下次计划:2026-06-04 10:45

PR 列表

更多筛选
2026-05-14

#40453 Update Dockerfile.rocm for AINIC & Thor NIC

原始 PR · 作者 haic0 · 合并时间 2026-05-14 15:24

基础设施 重要性 5.09 洞察度 5.00

为 ROCm 镜像添加 AINIC 和 Thor-2 NIC 驱动支持

该 PR 是基础设施增强而非功能性变更,对 ROCm 多节点用户至关重要。值得关注的设计决策包括:默认安装所有 NIC 以减少认知负担(类似 SGLang 做法)、提供 none 选项兼容不使用 MoRI 的场景、以及明确的版本参数化。对于需要构建定制 ROCm 镜像的团队,此 PR 提供了可复用的模式。建议阅读 Dockerfile 中的函数封装和 case 分支,理解如何在 Docker 构建中灵活管理多方驱动。

重构 重要性 9.18 洞察度 5.00

回退MoE路由捕获机制到共享内存方案

建议密切关注被回退的 device cache 方案与后续 #39568 的演进关系。核心设计决策(共享内存 vs. device pipeline)值得深入阅读 `routed_experts_capturer.py` 中的注释和实现差异。对于直接使用 `routed_experts` API 的客户,需评估移除字段的影响。

功能 重要性 9.00 洞察度 5.00

为 V1 注意力子系统新增 TOKENSPEED_MLA 后端,优化 Blackwell SM100 上 DeepSeek R1 的 prefill / decode。

值得精读。本 PR 展示了如何在 V1 注意力后端生态中集成一个高性能定制后端,从 backend 类实现、注册、platform 优先级到测试和 benchmark 的最佳实践均有涉及。review 中指出的 scale 缓存和 fallback 设计问题可作为后续改进的参考。建议关注后续修复提交(若有)以解决遗留风险。

缺陷修复 重要性 5.78 洞察度 5.00

修复 ROCm Aiter MoE padding 对齐问题提升性能

值得合并。改动小而精,有明确的性能收益和充分的 benchmark 数据支持。建议关注后续对非标准形状模型的进一步验证。

#42598 [CI][XPU] skip ut of offload connector

原始 PR · 作者 zhenwei-intel · 合并时间 2026-05-14 13:13

基础设施 重要性 2.55 洞察度 2.00

跳过 XPU CI 中 offload connector 测试

该 PR 为小型 CI 配置修复,无需精读。但可关注关联 PR #36423 的进展,以便及时恢复测试。

参与讨论