Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-14 01:54 同步状态:空闲 下次计划:2026-06-14 02:54

PR 列表

更多筛选
2026-05-30

#38445 [PERF]MiniMax-M2 gate kernel

原始 PR · 作者 jeejeelee · 合并时间 2026-05-30 09:28

性能优化 重要性 9.36 洞察度 7.00

融合 MiniMax-M2 MoE 门控的 FP32 路由 GEMM 核函数

值得精读,展示了如何为特定模型定制融合 GEMM 并通过分层调度集成到现有 MoE 门控框架。重点可关注 `GateLinear.forward` 的四级调度设计和 `fp32_router_gemm_fake` 的注册模式。

#43974 [CI] Fix smoke test step key to bypass block gate

原始 PR · 作者 khluu · 合并时间 2026-05-30 07:28

缺陷修复 重要性 2.59 洞察度 2.00

修复 CI smoke 测试步骤键名使其绕过手动阻塞门

值得合并,修复了之前 PR 引入的 CI 流程问题。CI 维护者可关注是否有其他步骤键名也需按此命名规范调整。

#44023 [CI] Remove duplicate Harmony test coverage

原始 PR · 作者 sfeng33 · 合并时间 2026-05-30 06:52

测试 重要性 5.85 洞察度 2.00

删除重复的 Harmony 测试覆盖

该 PR 已合并,无直接行动项。建议团队将此作为测试清理的范例,定期审查并移除重复或不必要的测试,保持测试套件精简高效。

#43108 [MoE Refactor] Remove supports_expert_map

原始 PR · 作者 bnellnm · 合并时间 2026-05-30 05:26

重构 重要性 7.05 洞察度 4.00

移除 MoE 模块中的 supports_expert_map 方法

推荐阅读。该 PR 展示了以最小化接口约束进行重构的思路,并通过移除抽象方法暴露了一个隐藏 bug。对于理解 MoE 模块架构和如何优雅地清理技术债务有参考价值。

重构 重要性 8.68 洞察度 6.00

迁移 WNA16 MoE 量化至 MK oracle 架构

该 PR 是 MoE 重构的重要里程碑,建议团队内精读,理解 oracle 模式的设计和权重处理流程。重点关注:后端选择条件的正确性验证、权重转换的完备性、以及作为后续 PR 基础的代码结构。

重构 重要性 5.22 洞察度 5.00

移除 Harmony 模型 stop_token_ids 覆盖逻辑

值得合入。这是一个高质量的死代码清理 PR,设计上依赖上游模型配置而非运行时注入。建议相关团队关注 Responses API 中 `ignore_eos=True` 的行为变化,并在必要时更新文档或用户指南。

参与讨论