Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-14

#41261 [Compile] Fix compile warning with topk softplus sqrt

原始 PR · 作者 yewentao256 · 合并时间 2026-05-14 20:12

缺陷修复重要性 4.81 洞察度 2.00

修复 MoE topk_softplus_sqrt CUDA 核函数编译警告

建议合并，该 PR 以最小修改消除编译警告，提升代码质量。

bugfixkernelmoe

#41263 [DSV4] Fuse norm and router for low latency scenario

原始 PR · 作者 jeejeelee · 合并时间 2026-05-14 20:11

性能优化重要性 9.18 洞察度 6.00

DSV4 融合 RMSNorm 与路由器 GEMV 核

值得精读，尤其是融合核绕过 normed_x 全局内存的数学技巧、运行时分发策略以及 `PluggableLayer` 的使用。对于关注 CUDA 性能优化的工程师有较高参考价值。

performancedeepseekmoe

#39778 [Quantization][Autoround][Toolkit] Add W4A16 Support

原始 PR · 作者 Zhenzhong1 · 合并时间 2026-05-14 19:18

功能重要性 7.14 洞察度 6.00

通过 AutoRound Toolkit 为 Intel XPU/CPU 添加 W4A16 线性层量化

此 PR 值得所有 Intel 平台部署者和量化框架开发者关注。设计上基类提取和优先级调度策略具有参考价值，第三方依赖的分阶段集成策略也为大型项目提供了借鉴。建议精读 `inc.py` 中的调度逻辑和 `create_weights` 重构。

quantizationxpuintel-gpu

#41689 [XPU] Fix double-transpose in XPUFP8ScaledMMLinearKernel for W8A8 quant method

原始 PR · 作者 libinta · 合并时间 2026-05-14 17:17

缺陷修复重要性 5.38 洞察度 6.00

修复 XPU W8A8 量化权重双重转置问题

该 PR 已充分 review 并得到 3 位 reviewer 的 approval，逻辑清晰且测试覆盖完整，建议合并。值得精读 `process_weights_after_loading` 的最终实现，理解如何处理不同量化路径的权重布局差异。

bugfixxpuquantization

#42342 [Bug] Fix DeepSeek V4 `AttributeError: module 'cutlass.cute.nvgpu' has no attribute 'LoadCacheMode'`

原始 PR · 作者 yewentao256 · 合并时间 2026-05-14 17:00

缺陷修复重要性 2.41 洞察度 3.00

修复 DeepSeek V4 因 cutlass 版本 API 变动导致的崩溃

可快速合并，无必要精读。注意跟进 @ZJY0516 在 #42438 中的改动，确保版本管理一致性。

bugfixdeepseeknvidia

#40857 [CI][AMD][BugFix] Prevent triton compiler error when running test_moe_layer with use_ep = True on ROCm

原始 PR · 作者 rasmith · 合并时间 2026-05-14 16:44

缺陷修复重要性 5.24 洞察度 3.00

修复 ROCm 上 Triton MoE 因 scale 为 None 的编译错误

建议阅读此 PR，展示了一种在条件分支中 fallback 的安全修复方式，避免在调用链上游做更大改动。

bugfixrocmmoe

#42126 [CI][AMD] Skip tests where models have problems or fails on both HW types

原始 PR · 作者 rasmith · 合并时间 2026-05-14 16:21

测试重要性 4.77 洞察度 2.00

跳过 ROCm 上已知有问题的多模态测试

值得合入以保持 CI 稳定性。PR 本身是临时缓解措施，建议跟踪关联 issue 并在上游模型修复后移除这些跳过标记。

testrocmmulti-modality

#40453 Update Dockerfile.rocm for AINIC & Thor NIC

原始 PR · 作者 haic0 · 合并时间 2026-05-14 15:24

基础设施重要性 5.09 洞察度 5.00

为 ROCm 镜像添加 AINIC 和 Thor-2 NIC 驱动支持

该 PR 是基础设施增强而非功能性变更，对 ROCm 多节点用户至关重要。值得关注的设计决策包括：默认安装所有 NIC 以减少认知负担（类似 SGLang 做法）、提供 none 选项兼容不使用 MoRI 的场景、以及明确的版本参数化。对于需要构建定制 ROCm 镜像的团队，此 PR 提供了可复用的模式。建议阅读 Dockerfile 中的函数封装和 case 分支，理解如何在 Docker 构建中灵活管理多方驱动。

rocminfraci/build

第 79 / 269 页 · 共 2148 条

上一页 1 … 77 78 79 80 81 … 269 下一页