Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

fp8 相关 PR

2026-04-03

#38325 [Kernel] Add swapAB support for SM120 CUTLASS blockwise FP8 GEMM

作者 Nekofish-L · 合并时间 2026-04-03 21:49

性能优化 重要性 6.00 洞察度 6.00

为SM120架构CUTLASS块级FP8 GEMM添加swapAB支持,优化小M维度性能。

performance fp8 quantization v1

值得精读以学习 CUTLASS 优化技巧和 swapAB 策略,特别关注启发式选择的 trade-offs 和模板元编程实现细节。工程师可参考此 PR 了解如何通过转置优化小维度 GEMM 性能。

#36518 [Kernel] Fuse FP8 output quantization into merge_attn_states

作者 carlyou · 合并时间 2026-04-03 09:47

性能优化 重要性 6.00 洞察度 7.00

融合 FP8 输出量化到 merge_attn_states 内核,提升 DCP/cascade attention 性能。

performance fp8 quantization v1

该 PR 值得精读,特别是内核融合设计和性能优化策略。重点关注 CUDA 和 Triton 内核中 FP8 量化的实现细节,以及 review 中讨论的验证机制和基准测试方法。

2026-03-31

#38478 [Bug fix][Quantization] Fix dummy weight loading

作者 Josephasafg · 合并时间 2026-03-31 04:38

缺陷修复 重要性 5.00 洞察度 5.00

修复使用dummy加载格式时在线量化方法的内存不足问题。

bugfix quantization fp8

对于从事量化、模型加载或layerwise reloading的工程师,建议精读此PR,因为它展示了如何正确集成dummy weight加载与layerwise处理机制,设计决策如deferred initialization和逻辑集中化值得学习。同时,关注review中讨论的边缘案例处理,以增强代码健壮性。

2026-03-30
缺陷修复 重要性 4.00 洞察度 3.00

修复 TRT-LLM FP8/NVFP4 MoE 内核中模拟路由方法的缺失,确保基准测试正常运行。

bugfix test fp8 quantization

该 PR 变更简单直接,无需深入精读。工程师可关注路由方法支持架构,了解不同后端对路由方法的 allowlist 机制,这在设计 MoE 系统时是重要考量。

2026-03-28

#31201 Add nvidia h800 moe config

作者 lengrongfu · 合并时间 2026-03-28 07:28

功能 重要性 5.00 洞察度 3.00

为NVIDIA H800和H100设备添加fused MoE内核配置文件,支持fp8_w8a8精度。

feature performance gpu fp8

对于关注GPU性能优化或使用NVIDIA H800/H100设备的工程师,建议快速浏览配置文件参数以了解优化细节,但无需深入分析代码逻辑。注意review中提到的配置潜在问题,可能在部署前需要验证。

#38032 [QeRL] Compose online quantization with quantized reloading

作者 kylesayrs · 合并时间 2026-03-28 04:22

功能 重要性 6.00 洞察度 6.00

重构在线量化逻辑以支持与量化重新加载协同工作,提升代码复用。

quantization refactor test fp8

该 PR 值得精读,特别是关注 `initialize_online_processing` 如何抽象化在线量化和重新加载的共享逻辑,展示了模块化设计的好处。建议工程师学习其代码重构技巧,并注意 review 中关于正确性和测试覆盖的讨论,以应用到类似场景。

2026-03-27

#37547 [Bugfix][ROCm] Fix lru_cache on paged_mqa_logits_module

作者 gronsti-amd · 合并时间 2026-03-27 03:01

缺陷修复 重要性 4.00 洞察度 2.00

修复ROCm后端paged_mqa_logits_module的lru_cache失效,提升性能。

bugfix rocm fp8 performance

建议快速审查此PR,以理解lru_cache的正确使用方式。关注设计决策:确保缓存函数在模块级别定义以避免作用域问题。对于工程师,这是一个学习Python装饰器和性能优化的好例子,值得精读其简单但有效的修复思路。

缺陷修复 重要性 6.00 洞察度 5.00

修复 FP8 FlashMLA 解码中的 CUDA 图持久缓冲区缺失 bug,避免输出乱码。

bugfix cudagraph fp8

此 PR 值得精读,因为它揭示了 CUDA 图与张量地址管理的微妙交互,以及如何在重构后保持缓冲区一致性。关注条件检查、断言保留的原因和与 PR #32810 的关联,有助于理解 vLLM 中注意力后端的演进。