Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 09:24 同步状态：空闲下次计划：2026-06-01 10:24

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-03

#38306 [Model] Add Phi4ForCausalLMV for microsoft/Phi-4-reasoning-vision-15B

原始 PR · 作者 varun-sundar-rabindranath · 合并时间 2026-04-03 12:14

功能重要性 6.00 洞察度 5.00

添加 Phi-4-reasoning-vision 15B 多模态模型支持，解决启动失败问题。

建议工程师精读此 PR，重点关注模型实现中的多模态处理模式（如 Siglip2 视觉塔集成和图像 token 映射）、性能优化点（spatial_shapes 处理策略）以及测试中的内存管理技巧，这些设计决策对开发类似多模态模型有借鉴价值。

featuremodelmulti-modality

#38664 [CI][ROCm] Add Qwen3.5-35B-A3B-MXFP4 model eval into CI

原始 PR · 作者 BowenBao · 合并时间 2026-04-03 12:05

基础设施重要性 3.00 洞察度 2.00

在ROCm CI中新增Qwen3.5-35B-A3B-MXFP4模型的GSM8K评估配置

该PR变更简单直接，无需精读。对于技术管理者，可关注其反映了vLLm在持续扩展对量化模型（尤其是MXFP4格式）和ROCm平台的支持趋势。对于工程师，仅当需要了解GSM8K评估CI配置格式或Qwen3.5模型量化测试参数时可参考。

rocmqwenci

#38774 [ROCm][Quantization][1/N] Refactor quark_moe w_mxfp4 w/ oracle

原始 PR · 作者 BowenBao · 合并时间 2026-04-03 11:29

重构重要性 6.00 洞察度 5.00

重构Quark MoE w_mxfp4量化路径，通过oracle和kernel后端运行，并扩展ROCm CI测试。

建议工程团队关注重构后的代码路径，特别是`quark_moe.py`中的`_setup_kernel_via_oracle`函数设计，以及CI配置的更新；同时，review代码共享讨论，以指导未来量化重构的模块化设计。

rocmquantizationrefactor

#37566 refactor hard coded device string in test files under tests/v1 and tests/lora

原始 PR · 作者 wincent8 · 合并时间 2026-04-03 11:21

重构重要性 5.00 洞察度 5.00

重构测试文件中的硬编码CUDA设备字符串，支持多平台加速器。

该PR值得精读，特别是对于负责跨平台测试或硬件兼容性开发的工程师。关注点包括：如何通过current_platform抽象层实现设备无关性，系统性替换硬编码字符串的设计模式，以及review中针对导入和变量命名的质量保证实践。建议结合历史PR（如ROCm、XPU相关变更）理解更大范围的多平台演进。

refactortest

#38460 [Perf] Batch KV cache swap copies via cuMemcpyBatchAsync

原始 PR · 作者 Etelis · 合并时间 2026-04-03 11:13

性能优化重要性 7.00 洞察度 6.00

通过批处理内存复制优化 KV cache offloading 性能，提升吞吐量和降低延迟。

值得精读，特别是 CUDA 内存批处理 API 的使用和 Python-C++ 交互设计。关注 `swap_blocks_batch` 的实现细节、回退机制以及设备注册的决策。

performancekv-connectorrefactor

#36518 [Kernel] Fuse FP8 output quantization into merge_attn_states

原始 PR · 作者 carlyou · 合并时间 2026-04-03 09:47

性能优化重要性 6.00 洞察度 7.00

融合 FP8 输出量化到 merge_attn_states 内核，提升 DCP/cascade attention 性能。

该 PR 值得精读，特别是内核融合设计和性能优化策略。重点关注 CUDA 和 Triton 内核中 FP8 量化的实现细节，以及 review 中讨论的验证机制和基准测试方法。

performancefp8quantization

#36205 [mla] Support fused FP8/NVFP4 output quantization in MLA attention (#35792)

原始 PR · 作者 carlyou · 合并时间 2026-04-03 09:16

功能重要性 6.00 洞察度 6.00

为MLA注意力添加融合FP8/NVFP4输出量化，消除每层单独量化内核。

此PR值得精读，尤其对于关注注意力机制优化和量化融合的工程师。重点关注：1. `forward_impl`中临时缓冲区交换的设计决策，平衡了内存与分配开销；2. 模式匹配器的实现方式，展示了如何扩展现有融合框架支持新操作模式；3. 性能测试结果表明当前阶段收益有限，凸显了后续内核级优化的必要性。建议结合相关PR（如#38138、#38325）理解整体量化优化脉络。

performancefeaturequantization

#33657 [XPU] Initial support for GDN attention on Qwen3-next/Qwen3.5

原始 PR · 作者 yma11 · 合并时间 2026-04-03 08:59

功能重要性 6.00 洞察度 6.00

为Qwen3-next/Qwen3.5模型在XPU上启用GDN注意力支持，修复块大小对齐问题。

建议工程师精读此PR，特别是gdn_linear_attn.py中的forward_xpu实现和xpu.py中的块大小处理逻辑，以学习如何优雅地扩展平台支持并处理硬件特定约束。设计决策如条件性块大小调整展示了良好的模块化思维，值得关注。

xpuqwenfeature

第 205 / 253 页 · 共 2021 条

上一页 1 … 203 204 205 206 207 … 253 下一页