重构Quark MoE w_mxfp4量化路径,通过oracle和kernel后端运行,并扩展ROCm CI测试。
建议工程团队关注重构后的代码路径,特别是`quark_moe.py`中的`_setup_kernel_via_oracle`函数设计,以及CI配置的更新;同时,review代码共享讨论,以指导未来量化重构的模块化设计。
A high-throughput and memory-efficient inference and serving engine for LLMs
重构Quark MoE w_mxfp4量化路径,通过oracle和kernel后端运行,并扩展ROCm CI测试。
建议工程团队关注重构后的代码路径,特别是`quark_moe.py`中的`_setup_kernel_via_oracle`函数设计,以及CI配置的更新;同时,review代码共享讨论,以指导未来量化重构的模块化设计。
重构测试文件中的硬编码CUDA设备字符串,支持多平台加速器。
该PR值得精读,特别是对于负责跨平台测试或硬件兼容性开发的工程师。关注点包括:如何通过current_platform抽象层实现设备无关性,系统性替换硬编码字符串的设计模式,以及review中针对导入和变量命名的质量保证实践。建议结合历史PR(如ROCm、XPU相关变更)理解更大范围的多平台演进。
通过批处理内存复制优化 KV cache offloading 性能,提升吞吐量和降低延迟。
值得精读,特别是 CUDA 内存批处理 API 的使用和 Python-C++ 交互设计。关注 `swap_blocks_batch` 的实现细节、回退机制以及设备注册的决策。
融合 FP8 输出量化到 merge_attn_states 内核,提升 DCP/cascade attention 性能。
该 PR 值得精读,特别是内核融合设计和性能优化策略。重点关注 CUDA 和 Triton 内核中 FP8 量化的实现细节,以及 review 中讨论的验证机制和基准测试方法。
为MLA注意力添加融合FP8/NVFP4输出量化,消除每层单独量化内核。
此PR值得精读,尤其对于关注注意力机制优化和量化融合的工程师。重点关注:1. `forward_impl`中临时缓冲区交换的设计决策,平衡了内存与分配开销;2. 模式匹配器的实现方式,展示了如何扩展现有融合框架支持新操作模式;3. 性能测试结果表明当前阶段收益有限,凸显了后续内核级优化的必要性。建议结合相关PR(如#38138、#38325)理解整体量化优化脉络。
为Qwen3-next/Qwen3.5模型在XPU上启用GDN注意力支持,修复块大小对齐问题。
建议工程师精读此PR,特别是gdn_linear_attn.py中的forward_xpu实现和xpu.py中的块大小处理逻辑,以学习如何优雅地扩展平台支持并处理硬件特定约束。设计决策如条件性块大小调整展示了良好的模块化思维,值得关注。
原始 PR · 作者 MatthewBonanni · 合并时间 2026-04-03 08:52
修复KV连接器单元测试中的类型错误,将cache_dtype从torch.bfloat16改为字符串'bfloat16'。
此PR变更简单,无需精读。工程师可关注以了解测试接口类型一致性,但无复杂设计决策。建议结合PR #38378查看引入问题的上下文。
原始 PR · 作者 vadiklyutiy · 合并时间 2026-04-03 08:45
修复Qwen3.5 MTP模型在NVFP4量化下因mtp.fc层缺失排除配置导致的加载崩溃问题。
该PR值得精读,尤其是对于处理量化模型和推测解码的工程师。关注点:1. 量化配置与检查点格式不匹配的典型问题及临时修复策略。2. 如何通过条件逻辑在模型初始化阶段动态调整量化设置。3. 与上游依赖(Model-Optimizer)的协同修复流程。
参与讨论