#39007 [MoE] Move GPT OSS Triton kernel experts into fused_moe/experts/
作者 Jackmin801 · 合并时间 2026-04-15 03:27
将GPT OSS Triton MOE内核文件移至experts子目录,统一代码结构。
建议开发者关注此变更以了解代码结构演进,特别是 MoE 相关模块;对于维护者,这是一个良好的代码清理示例,值得学习以保持代码库一致性。
标签列表
聚合结果
作者 Jackmin801 · 合并时间 2026-04-15 03:27
将GPT OSS Triton MOE内核文件移至experts子目录,统一代码结构。
建议开发者关注此变更以了解代码结构演进,特别是 MoE 相关模块;对于维护者,这是一个良好的代码清理示例,值得学习以保持代码库一致性。
作者 Rohan138 · 合并时间 2026-04-15 01:10
修复ROCm平台不支持gpt_oss_mxfp4量化方法的问题。
该PR变更简单直接,无需精读代码。值得关注的是PR作者提出的设计问题:平台级支持列表是否是最佳设计?这反映了vLLM中平台抽象和量化支持机制的潜在改进点。建议相关架构师关注此问题,考虑是否应重构为量化方法自声明支持平台。
作者 zyongye · 合并时间 2026-04-14 00:53
为 GPT-OSS 检查点创建专用 MXFP4 量化配置类,区分通用 MXFP4 支持。
该 PR 值得精读,特别是量化配置的设计决策,如基类与子类的划分、配置标准化路径的实现。建议关注 `GptOssMxfp4Config.override_quantization_method` 如何结合模型类型进行安全映射,以及 `_is_mxfp4` 辅助函数如何统一处理 MXFP4 变体,这些模式可用于类似场景。
作者 BowenBao · 合并时间 2026-04-03 00:06
在ROCm CI中新增gpt-oss模型的w4a8量化配置测试。
该PR本身非常简单,不值得精读,但值得关注其作为GPT-Oss模型量化支持CI测试体系构建的起点。建议关注后续相关的PR(如#37128中提到的CK后端路由、Triton后端路由启用等),这些将涉及核心量化逻辑的修改。
作者 xyang16 · 合并时间 2026-04-02 13:02
回滚gpt-oss路由器GEMM内核以修复gpt-oss-120b模型的准确性问题。
建议技术管理者和工程师关注此PR以理解内核准确性问题的重要性,并审查GateLinear的简化调度逻辑。值得精读的文件包括vllm/model_executor/layers/fused_moe/router/gate_linear.py和vllm/model_executor/models/gpt_oss.py,以掌握MoE路由器的回退机制和模型调整。