Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

attention 相关 PR

2026-04-17

#40060 Fix TURBOQUANT backend selection in cuda.py

作者 mgoin · 合并时间 2026-04-17 22:31

缺陷修复 重要性 4.60 洞察度 4.00

修复 TURBOQUANT 注意力后端选择逻辑,移除硬编码旁路并加入优先级列表。

bugfix v1 nvidia attention

建议仔细阅读 `vllm/platforms/cuda.py` 中的 `_get_backend_priorities` 和 `get_valid_backends` 方法,关注 TURBOQUANT 优先级调整和硬编码移除的设计决策。同时,注意 review 中提到的未解决风险,可能需要后续 PR 来优化验证逻辑。

#39458 [MLA] Optimize mla indexer prepare uniform decode for MTP > 1

作者 TheEpicDolphin · 合并时间 2026-04-17 07:27

性能优化 重要性 7.50 洞察度 6.00

优化MLA注意力索引器uniform decode路径,通过Triton kernel减少推测解码开销。

v1 performance attention kernel nvidia

建议精读此PR,特别关注Triton kernel的设计和`_prepare_decode_tensors`中的条件分支,这是性能优化的核心。对于从事注意力后端、推测解码或kernel优化的工程师,可学习如何针对uniform场景进行针对性优化。

2026-04-15
缺陷修复 重要性 4.90 洞察度 3.00

修复XPU平台编码器注意力中量化查询输入不支持的问题,将q_descale参数设为None。

xpu bugfix v1 quantization attention

该PR值得快速浏览,以了解XPU平台量化支持的限制及修复方式;关注`supports_quant_query_input`标志的使用,这可能在其他注意力后端中也有类似模式。

#38479 [Attention Backend] TurboQuant: 2-bit KV cache compression with 4x capacity

作者 vibhavagarwal5 · 合并时间 2026-04-15 10:57

功能 重要性 9.18 洞察度 7.00

新增TurboQuant注意力后端,通过2-bit KV缓存压缩实现最高4.9倍容量提升。

quantization attention feature v1 nvidia

该PR值得精读,尤其关注以下设计决策: 1. **独立后端设计**:权衡了集成复杂度与性能优化,为窄用例提供高性能路径。 2. **WHT旋转替代随机正交矩阵**:利用Hadamard矩阵的自逆性和结构,降低计算开销并支持未来内核融合。 3. **融合Triton内核**:将多个量化步骤合并,减少内核启动,是性能关键优化。 4. **不对称K/V预设**:基于社区数据调整位分配,体现数据驱动的压缩策略。 建议在合并前,补充端到端测试和文档,明确支持范围。

缺陷修复 重要性 6.27 洞察度 6.00

修复Eagle推测解码中CUDA图模式问题,防止FlashInfer后端读取越界元数据。

v1 bugfix nvidia speculative-decoding attention

该PR值得精读,特别是对于关注CUDA图优化和推测解码的工程师。重点关注`init_cudagraph_manager`方法中的模式选择逻辑,以及`_prepare_eagle_inputs_kernel`中的缓冲区填充实现,这些设计决策揭示了CUDA图模式与注意力后端元数据之间的微妙依赖关系。

#39752 add warning when FP8 KV cache misses prefill query quantization

作者 qiching · 合并时间 2026-04-15 02:43

功能 重要性 5.91 洞察度 3.00

为FP8 KV缓存未启用预填充查询量化时添加启动警告,提升用户可发现性。

v1 performance deepseek nvidia attention

该PR值得快速浏览,重点关注`determine_prefill_query_data_type()`函数中的条件判断逻辑和日志设计。它展示了如何在保持向后兼容的前提下,通过日志提升功能可发现性的典型模式。对于涉及性能调优的开发者,可参考其如何平衡短序列与长上下文的默认行为。

#39119 [ROCm] Align AiterFlashAttentionImpl attn_type check with backend

作者 Bortlesboat · 合并时间 2026-04-15 01:36

缺陷修复 重要性 4.00 洞察度 5.00

修复ROCm平台AiterFlashAttentionImpl中attn_type检查与后端不一致的问题,防止跨注意力错误计算。

rocm v1 bugfix attention

该PR值得快速浏览,重点关注attn_type检查的逻辑对齐和错误信息的改进。对于关注ROCm平台注意力后端实现的开发者,这是一个重要的防御性修复,展示了后端契约与实现类保持一致的重要性。

2026-04-14
缺陷修复 重要性 5.00 洞察度 3.00

修复Param2Moe模型在张量并行下注意力头不匹配导致的错误计算。

bugfix model v1 attention

建议工程师精读此PR以理解张量并行下注意力头处理的常见模式,并可参考类似模型实现。对于维护Param2Moe或类似架构的开发者,此修复至关重要。