Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

gpt-oss 相关 PR

2026-04-15

#39754 [Bugfix][ROCm]: Allow `gpt_oss_mxfp4` quantization method on rocm

作者 Rohan138 · 合并时间 2026-04-15 01:10

缺陷修复 重要性 3.00 洞察度 4.00

修复ROCm平台不支持gpt_oss_mxfp4量化方法的问题。

bugfix rocm gpt-oss quantization v1

该PR变更简单直接,无需精读代码。值得关注的是PR作者提出的设计问题:平台级支持列表是否是最佳设计?这反映了vLLM中平台抽象和量化支持机制的潜在改进点。建议相关架构师关注此问题,考虑是否应重构为量化方法自声明支持平台。

2026-04-14

#39604 [Quantization] [Refactor] Create special "GptOssMxfp4MoeMethod"

作者 zyongye · 合并时间 2026-04-14 00:53

重构 重要性 8.40 洞察度 6.00

为 GPT-OSS 检查点创建专用 MXFP4 量化配置类,区分通用 MXFP4 支持。

quantization gpt-oss refactor v1

该 PR 值得精读,特别是量化配置的设计决策,如基类与子类的划分、配置标准化路径的实现。建议关注 `GptOssMxfp4Config.override_quantization_method` 如何结合模型类型进行安全映射,以及 `_is_mxfp4` 辅助函数如何统一处理 MXFP4 变体,这些模式可用于类似场景。

2026-04-03

#38292 [CI][ROCm] Add gpt-oss w4a8 in CI

作者 BowenBao · 合并时间 2026-04-03 00:06

基础设施 重要性 3.00 洞察度 2.00

在ROCm CI中新增gpt-oss模型的w4a8量化配置测试。

rocm gpt-oss ci quantization v1

该PR本身非常简单,不值得精读,但值得关注其作为GPT-Oss模型量化支持CI测试体系构建的起点。建议关注后续相关的PR(如#37128中提到的CK后端路由、Triton后端路由启用等),这些将涉及核心量化逻辑的修改。

2026-04-02

#38778 Revert "[Kernel] Add gpt-oss Router GEMM kernel (#37205)"

作者 xyang16 · 合并时间 2026-04-02 13:02

缺陷修复 重要性 7.00 洞察度 6.00

回滚gpt-oss路由器GEMM内核以修复gpt-oss-120b模型的准确性问题。

bugfix performance gpt-oss v1

建议技术管理者和工程师关注此PR以理解内核准确性问题的重要性,并审查GateLinear的简化调度逻辑。值得精读的文件包括vllm/model_executor/layers/fused_moe/router/gate_linear.py和vllm/model_executor/models/gpt_oss.py,以掌握MoE路由器的回退机制和模型调整。