#43792 offload prompt_embeds decode in render_prompts_async to avoid blocking
原始 PR · 作者 gagandhakrey · 合并时间 2026-05-30 09:36
修复 render_prompts_async 假异步引起的事件循环阻塞
此 PR 是一次精准的性能修复,值得合并。建议未来添加一个简单的集成测试来验证 `render_prompts_async` 不阻塞事件循环,可作为跟进项。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 gagandhakrey · 合并时间 2026-05-30 09:36
修复 render_prompts_async 假异步引起的事件循环阻塞
此 PR 是一次精准的性能修复,值得合并。建议未来添加一个简单的集成测试来验证 `render_prompts_async` 不阻塞事件循环,可作为跟进项。
融合 MiniMax-M2 MoE 门控的 FP32 路由 GEMM 核函数
值得精读,展示了如何为特定模型定制融合 GEMM 并通过分层调度集成到现有 MoE 门控框架。重点可关注 `GateLinear.forward` 的四级调度设计和 `fp32_router_gemm_fake` 的注册模式。
回退 WNA16 MoE oracle 迁移重构
该 PR 是修复性回退,值得相关人员了解合并过程中出现的问题,但普通使用者无需深究。关注后续意图为正确合并的重新提交。
修复 CI smoke 测试步骤键名使其绕过手动阻塞门
值得合并,修复了之前 PR 引入的 CI 流程问题。CI 维护者可关注是否有其他步骤键名也需按此命名规范调整。
删除重复的 Harmony 测试覆盖
该 PR 已合并,无直接行动项。建议团队将此作为测试清理的范例,定期审查并移除重复或不必要的测试,保持测试套件精简高效。
移除 MoE 模块中的 supports_expert_map 方法
推荐阅读。该 PR 展示了以最小化接口约束进行重构的思路,并通过移除抽象方法暴露了一个隐藏 bug。对于理解 MoE 模块架构和如何优雅地清理技术债务有参考价值。
迁移 WNA16 MoE 量化至 MK oracle 架构
该 PR 是 MoE 重构的重要里程碑,建议团队内精读,理解 oracle 模式的设计和权重处理流程。重点关注:后端选择条件的正确性验证、权重转换的完备性、以及作为后续 PR 基础的代码结构。
移除 Harmony 模型 stop_token_ids 覆盖逻辑
值得合入。这是一个高质量的死代码清理 PR,设计上依赖上游模型配置而非运行时注入。建议相关团队关注 Responses API 中 `ignore_eos=True` 的行为变化,并在必要时更新文档或用户指南。
参与讨论