Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-14
性能优化 重要性 9.18 洞察度 6.00

DSV4 融合 RMSNorm 与路由器 GEMV 核

值得精读,尤其是融合核绕过 normed_x 全局内存的数学技巧、运行时分发策略以及 `PluggableLayer` 的使用。对于关注 CUDA 性能优化的工程师有较高参考价值。

功能 重要性 7.14 洞察度 6.00

通过 AutoRound Toolkit 为 Intel XPU/CPU 添加 W4A16 线性层量化

此 PR 值得所有 Intel 平台部署者和量化框架开发者关注。设计上基类提取和优先级调度策略具有参考价值,第三方依赖的分阶段集成策略也为大型项目提供了借鉴。建议精读 `inc.py` 中的调度逻辑和 `create_weights` 重构。

缺陷修复 重要性 5.38 洞察度 6.00

修复 XPU W8A8 量化权重双重转置问题

该 PR 已充分 review 并得到 3 位 reviewer 的 approval,逻辑清晰且测试覆盖完整,建议合并。值得精读 `process_weights_after_loading` 的最终实现,理解如何处理不同量化路径的权重布局差异。

#40453 Update Dockerfile.rocm for AINIC & Thor NIC

原始 PR · 作者 haic0 · 合并时间 2026-05-14 15:24

基础设施 重要性 5.09 洞察度 5.00

为 ROCm 镜像添加 AINIC 和 Thor-2 NIC 驱动支持

该 PR 是基础设施增强而非功能性变更,对 ROCm 多节点用户至关重要。值得关注的设计决策包括:默认安装所有 NIC 以减少认知负担(类似 SGLang 做法)、提供 none 选项兼容不使用 MoRI 的场景、以及明确的版本参数化。对于需要构建定制 ROCm 镜像的团队,此 PR 提供了可复用的模式。建议阅读 Dockerfile 中的函数封装和 case 分支,理解如何在 Docker 构建中灵活管理多方驱动。

参与讨论