回退MoE路由捕获机制到共享内存方案
建议密切关注被回退的 device cache 方案与后续 #39568 的演进关系。核心设计决策(共享内存 vs. device pipeline)值得深入阅读 `routed_experts_capturer.py` 中的注释和实现差异。对于直接使用 `routed_experts` API 的客户,需评估移除字段的影响。
A high-throughput and memory-efficient inference and serving engine for LLMs
回退MoE路由捕获机制到共享内存方案
建议密切关注被回退的 device cache 方案与后续 #39568 的演进关系。核心设计决策(共享内存 vs. device pipeline)值得深入阅读 `routed_experts_capturer.py` 中的注释和实现差异。对于直接使用 `routed_experts` API 的客户,需评估移除字段的影响。
为 V1 注意力子系统新增 TOKENSPEED_MLA 后端,优化 Blackwell SM100 上 DeepSeek R1 的 prefill / decode。
值得精读。本 PR 展示了如何在 V1 注意力后端生态中集成一个高性能定制后端,从 backend 类实现、注册、platform 优先级到测试和 benchmark 的最佳实践均有涉及。review 中指出的 scale 缓存和 fallback 设计问题可作为后续改进的参考。建议关注后续修复提交(若有)以解决遗留风险。
修复 ROCm Aiter MoE padding 对齐问题提升性能
值得合并。改动小而精,有明确的性能收益和充分的 benchmark 数据支持。建议关注后续对非标准形状模型的进一步验证。
原始 PR · 作者 zhenwei-intel · 合并时间 2026-05-14 13:13
跳过 XPU CI 中 offload connector 测试
该 PR 为小型 CI 配置修复,无需精读。但可关注关联 PR #36423 的进展,以便及时恢复测试。
原始 PR · 作者 Sarah-Salah · 合并时间 2026-05-14 10:49
修复 ParserManager 中 mypy 类型收窄错误
值得合并。虽然改动微小,但修复了类型检查的正确性,且遵循了项目中已有的惯用法。
原始 PR · 作者 hks-9697-v2 · 合并时间 2026-05-14 10:36
修复 Qwen3.5 权重加载参数传递问题
值得快速合并,修复明确,改动极小。
修复 VLM 包装模型上 EPLB 初始化崩溃
值得精读的 Bugfix PR,展示了如何处理协议接口与模型包装之间的兼容性问题。它同时修复了三条代码路径,模式清晰。gemini-code-assist 提出的重构建议(提取 helper)值得后续采纳。
原始 PR · 作者 jikunshang · 合并时间 2026-05-14 09:47
XPU 支持 MXFP8 MoE 模型推理
建议精读 `xpu_moe.py` 中的类设计,特别是 `_supports_quant_scheme` 的分层覆盖模式,可用于后续新增量化方案。其余文件修改较小,可快速浏览。
参与讨论