Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

moe 相关 PR

2026-04-18

#40178 [CI] Speed up test_fused_marlin_moe

作者 mgoin · 合并时间 2026-04-18 10:26

测试 重要性 6.09 洞察度 6.00

通过优化测试用例生成逻辑,大幅缩短 Marlin MoE 融合内核测试的执行时间。

test moe v1 performance ci/build

该 PR 是典型的测试优化案例,值得负责 CI 效率和 MoE 内核开发的工程师精读。重点关注其如何通过定义代表性场景来替代穷举组合,以及如何根据生产代码逻辑修正测试过滤条件。这为其他耗时长的参数化测试提供了优化思路。同时,应审阅 `MARLIN_MOE_SCENARIOS` 列表的完备性,确保关键维度(如各种量化格式、专家数量、并行配置)已被覆盖。

#37463 [Kernel] Add MXFP4 W4A4 CUTLASS MoE kernel for SM100

作者 mgoin · 合并时间 2026-04-18 07:42

功能 重要性 9.00 洞察度 6.00

为SM100 Blackwell设备添加MXFP4 W4A4 CUTLASS MoE内核,支持量化激活与权重的高效推理。

kernel quantization nvidia feature moe

该PR值得核心内核和框架工程师精读,以理解MXFP4量化方案在MoE中的实现细节。重点关注`cutlass_moe.py`中的`run_cutlass_moe_mxfp4`函数如何协调量化、计算与尺度处理,以及`compressed_tensors_moe_w4a4_mxfp4.py`中的后端自动选择设计,这些决策对系统扩展性和性能优化有重要影响。

2026-04-17

#40057 [Bugfix] Temporarily disable B200 fp4 MoE layer tests

作者 bnellnm · 合并时间 2026-04-17 07:26

缺陷修复 重要性 4.40 洞察度 3.00

临时禁用B200 GPU上的fp4 MoE层测试,解决CI因缺少cublasLt.h而失败的问题。

bugfix test v1 moe

该PR变更简单直接,适合快速浏览以了解CI问题的临时处理方式。值得关注的是团队如何通过设备能力检测精准定位受影响环境,以及条件判断的注释清晰链接到原始Issue,便于后续跟踪。

#38463 [Quantization] Consolidate experts_int8 with fp8 online quantization

作者 Josephasafg · 合并时间 2026-04-17 04:12

重构 重要性 9.00 洞察度 7.00

整合 INT8 专家量化到 FP8 在线量化框架,提取公共基类并支持新 CLI 参数。

quantization refactor feature v1 moe

建议技术管理者和工程师精读此 PR,重点关注 `OnlineMoEMethodBase` 的设计决策,它统一了在线 MoE 量化的元设备处理流程,体现了面向对象重构的优点;同时注意 review 中讨论的除零风险和命名清晰性,这些是量化系统中的常见陷阱。

2026-04-15

#39825 [Bugfix] Disable FlashInfer CUTLASS MoE on SM121 (DGX Spark)

作者 mgoin · 合并时间 2026-04-15 07:03

缺陷修复 重要性 5.51 洞察度 4.00

修复SM121 GPU上FlashInfer CUTLASS MoE因缺少Relu2模板而崩溃的问题。

bugfix nvidia moe v1 kernel

该PR值得快速浏览,重点关注设备支持检测的设计模式:如何通过精确匹配设备能力(SM120 vs. SM121)来处理上游库的特定版本缺陷。这是一个典型的“降级回退”策略案例,展示了在依赖第三方库时如何保持系统稳定性。

#35549 [MoE Refactor] Refactor ZeroExpertFusedMoE into new framework

作者 bnellnm · 合并时间 2026-04-15 04:11

重构 重要性 9.18 洞察度 7.00

重构MoE零专家处理逻辑,将ZeroExpertFusedMoE功能移至新框架。

moe refactor v1 cleanup core

建议精读此PR,关注ZeroExpertRouter的设计(如路由与零专家计算结合)和MoERunnerBase的扩展(_maybe_add_zero_expert_output方法),这些决策体现了模块化架构思想,对理解vLLM的MoE实现和未来重构有重要参考价值。