Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-04-21 19:59 同步状态：空闲下次计划：2026-04-21 20:59

PR 列表

已合并 859 · 已分析 859

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-03

#38774 [ROCm][Quantization][1/N] Refactor quark_moe w_mxfp4 w/ oracle

原始 PR · 作者 BowenBao · 合并时间 2026-04-03 11:29

重构重要性 6.00 洞察度 5.00

重构Quark MoE w_mxfp4量化路径，通过oracle和kernel后端运行，并扩展ROCm CI测试。

建议工程团队关注重构后的代码路径，特别是`quark_moe.py`中的`_setup_kernel_via_oracle`函数设计，以及CI配置的更新；同时，review代码共享讨论，以指导未来量化重构的模块化设计。

rocmquantizationrefactor

#37566 refactor hard coded device string in test files under tests/v1 and tests/lora

原始 PR · 作者 wincent8 · 合并时间 2026-04-03 11:21

重构重要性 5.00 洞察度 5.00

重构测试文件中的硬编码CUDA设备字符串，支持多平台加速器。

该PR值得精读，特别是对于负责跨平台测试或硬件兼容性开发的工程师。关注点包括：如何通过current_platform抽象层实现设备无关性，系统性替换硬编码字符串的设计模式，以及review中针对导入和变量命名的质量保证实践。建议结合历史PR（如ROCm、XPU相关变更）理解更大范围的多平台演进。

refactortestv1

#38460 [Perf] Batch KV cache swap copies via cuMemcpyBatchAsync

原始 PR · 作者 Etelis · 合并时间 2026-04-03 11:13

性能优化重要性 7.00 洞察度 6.00

通过批处理内存复制优化 KV cache offloading 性能，提升吞吐量和降低延迟。

值得精读，特别是 CUDA 内存批处理 API 的使用和 Python-C++ 交互设计。关注 `swap_blocks_batch` 的实现细节、回退机制以及设备注册的决策。

performancev1kv-connector

#36518 [Kernel] Fuse FP8 output quantization into merge_attn_states

原始 PR · 作者 carlyou · 合并时间 2026-04-03 09:47

性能优化重要性 6.00 洞察度 7.00

融合 FP8 输出量化到 merge_attn_states 内核，提升 DCP/cascade attention 性能。

该 PR 值得精读，特别是内核融合设计和性能优化策略。重点关注 CUDA 和 Triton 内核中 FP8 量化的实现细节，以及 review 中讨论的验证机制和基准测试方法。

performancefp8quantization

#36205 [mla] Support fused FP8/NVFP4 output quantization in MLA attention (#35792)

原始 PR · 作者 carlyou · 合并时间 2026-04-03 09:16

功能重要性 6.00 洞察度 6.00

为MLA注意力添加融合FP8/NVFP4输出量化，消除每层单独量化内核。

此PR值得精读，尤其对于关注注意力机制优化和量化融合的工程师。重点关注：1. `forward_impl`中临时缓冲区交换的设计决策，平衡了内存与分配开销；2. 模式匹配器的实现方式，展示了如何扩展现有融合框架支持新操作模式；3. 性能测试结果表明当前阶段收益有限，凸显了后续内核级优化的必要性。建议结合相关PR（如#38138、#38325）理解整体量化优化脉络。

performancefeaturequantization

#33657 [XPU] Initial support for GDN attention on Qwen3-next/Qwen3.5

原始 PR · 作者 yma11 · 合并时间 2026-04-03 08:59

功能重要性 6.00 洞察度 6.00

为Qwen3-next/Qwen3.5模型在XPU上启用GDN注意力支持，修复块大小对齐问题。

建议工程师精读此PR，特别是gdn_linear_attn.py中的forward_xpu实现和xpu.py中的块大小处理逻辑，以学习如何优雅地扩展平台支持并处理硬件特定约束。设计决策如条件性块大小调整展示了良好的模块化思维，值得关注。

xpuqwenv1

#38838 [CI] Fix `test_nixl_connector`

原始 PR · 作者 MatthewBonanni · 合并时间 2026-04-03 08:52

缺陷修复重要性 2.00 洞察度 1.00

修复KV连接器单元测试中的类型错误，将cache_dtype从torch.bfloat16改为字符串'bfloat16'。

此PR变更简单，无需精读。工程师可关注以了解测试接口类型一致性，但无复杂设计决策。建议结合PR #38378查看引入问题的上下文。

bugfixv1kv-connector

#38832 [Bugfix] Fix NVFP4+MTP crash: force unquantized mtp.fc for Qwen3.5

原始 PR · 作者 vadiklyutiy · 合并时间 2026-04-03 08:45

缺陷修复重要性 5.00 洞察度 4.00

修复Qwen3.5 MTP模型在NVFP4量化下因mtp.fc层缺失排除配置导致的加载崩溃问题。

该PR值得精读，尤其是对于处理量化模型和推测解码的工程师。关注点：1. 量化配置与检查点格式不匹配的典型问题及临时修复策略。2. 如何通过条件逻辑在模型初始化阶段动态调整量化设置。3. 与上游依赖（Model-Optimizer）的协同修复流程。

bugfixqwenv1

第 60 / 108 页 · 共 859 条

上一页 1 … 58 59 60 61 62 … 108 下一页

支持 Prhub ♥