Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

nvidia 相关 PR

2026-04-18

#37463 [Kernel] Add MXFP4 W4A4 CUTLASS MoE kernel for SM100

作者 mgoin · 合并时间 2026-04-18 07:42

功能 重要性 9.00 洞察度 6.00

为SM100 Blackwell设备添加MXFP4 W4A4 CUTLASS MoE内核,支持量化激活与权重的高效推理。

kernel quantization nvidia feature moe

该PR值得核心内核和框架工程师精读,以理解MXFP4量化方案在MoE中的实现细节。重点关注`cutlass_moe.py`中的`run_cutlass_moe_mxfp4`函数如何协调量化、计算与尺度处理,以及`compressed_tensors_moe_w4a4_mxfp4.py`中的后端自动选择设计,这些决策对系统扩展性和性能优化有重要影响。

2026-04-17

#40060 Fix TURBOQUANT backend selection in cuda.py

作者 mgoin · 合并时间 2026-04-17 22:31

缺陷修复 重要性 4.60 洞察度 4.00

修复 TURBOQUANT 注意力后端选择逻辑,移除硬编码旁路并加入优先级列表。

bugfix v1 nvidia attention

建议仔细阅读 `vllm/platforms/cuda.py` 中的 `_get_backend_priorities` 和 `get_valid_backends` 方法,关注 TURBOQUANT 优先级调整和硬编码移除的设计决策。同时,注意 review 中提到的未解决风险,可能需要后续 PR 来优化验证逻辑。

#37332 Add nvfp4 support to reshape_and_cache_flash

作者 sychen52 · 合并时间 2026-04-17 22:28

功能 重要性 8.62 洞察度 6.00

添加 NVFP4 量化支持到 KV 缓存,扩展 reshape_and_cache_flash 功能。

feature quantization nvidia v1

该 PR 值得精读,特别是 NVFP4 量化布局设计([k_data, k_scale, v_data, v_scale] 确保连续内存)和工具函数拆分逻辑,这些决策影响 kernel 实现和性能。关注 FlashInfer 后端的集成方式,以及 decode 路径不完整的后续处理。建议工程师了解新数据类型的添加流程和测试覆盖方法。

#39458 [MLA] Optimize mla indexer prepare uniform decode for MTP > 1

作者 TheEpicDolphin · 合并时间 2026-04-17 07:27

性能优化 重要性 7.50 洞察度 6.00

优化MLA注意力索引器uniform decode路径,通过Triton kernel减少推测解码开销。

v1 performance attention kernel nvidia

建议精读此PR,特别关注Triton kernel的设计和`_prepare_decode_tensors`中的条件分支,这是性能优化的核心。对于从事注意力后端、推测解码或kernel优化的工程师,可学习如何针对uniform场景进行针对性优化。

2026-04-15

#38479 [Attention Backend] TurboQuant: 2-bit KV cache compression with 4x capacity

作者 vibhavagarwal5 · 合并时间 2026-04-15 10:57

功能 重要性 9.18 洞察度 7.00

新增TurboQuant注意力后端,通过2-bit KV缓存压缩实现最高4.9倍容量提升。

quantization attention feature v1 nvidia

该PR值得精读,尤其关注以下设计决策: 1. **独立后端设计**:权衡了集成复杂度与性能优化,为窄用例提供高性能路径。 2. **WHT旋转替代随机正交矩阵**:利用Hadamard矩阵的自逆性和结构,降低计算开销并支持未来内核融合。 3. **融合Triton内核**:将多个量化步骤合并,减少内核启动,是性能关键优化。 4. **不对称K/V预设**:基于社区数据调整位分配,体现数据驱动的压缩策略。 建议在合并前,补充端到端测试和文档,明确支持范围。

缺陷修复 重要性 6.27 洞察度 6.00

修复Eagle推测解码中CUDA图模式问题,防止FlashInfer后端读取越界元数据。

v1 bugfix nvidia speculative-decoding attention

该PR值得精读,特别是对于关注CUDA图优化和推测解码的工程师。重点关注`init_cudagraph_manager`方法中的模式选择逻辑,以及`_prepare_eagle_inputs_kernel`中的缓冲区填充实现,这些设计决策揭示了CUDA图模式与注意力后端元数据之间的微妙依赖关系。

#37226 [CI] Add PyTorch nightly build and test pipeline

作者 atalman · 合并时间 2026-04-15 08:13

基础设施 重要性 5.60 洞察度 5.00

添加PyTorch nightly构建与测试流水线,支持CUDA 13.0和递归依赖处理。

ci nvidia v1

建议CI维护者关注此PR,特别是构建脚本中的安全问题和参数设计,以及依赖处理的递归变更,这些对于确保nightly测试的稳定性和安全性至关重要。

#39825 [Bugfix] Disable FlashInfer CUTLASS MoE on SM121 (DGX Spark)

作者 mgoin · 合并时间 2026-04-15 07:03

缺陷修复 重要性 5.51 洞察度 4.00

修复SM121 GPU上FlashInfer CUTLASS MoE因缺少Relu2模板而崩溃的问题。

bugfix nvidia moe v1 kernel

该PR值得快速浏览,重点关注设备支持检测的设计模式:如何通过精确匹配设备能力(SM120 vs. SM121)来处理上游库的特定版本缺陷。这是一个典型的“降级回退”策略案例,展示了在依赖第三方库时如何保持系统稳定性。