跳过 ROCm 上已知有问题的多模态测试
值得合入以保持 CI 稳定性。PR 本身是临时缓解措施,建议跟踪关联 issue 并在上游模型修复后移除这些跳过标记。
A high-throughput and memory-efficient inference and serving engine for LLMs
跳过 ROCm 上已知有问题的多模态测试
值得合入以保持 CI 稳定性。PR 本身是临时缓解措施,建议跟踪关联 issue 并在上游模型修复后移除这些跳过标记。
为 ROCm 镜像添加 AINIC 和 Thor-2 NIC 驱动支持
该 PR 是基础设施增强而非功能性变更,对 ROCm 多节点用户至关重要。值得关注的设计决策包括:默认安装所有 NIC 以减少认知负担(类似 SGLang 做法)、提供 none 选项兼容不使用 MoRI 的场景、以及明确的版本参数化。对于需要构建定制 ROCm 镜像的团队,此 PR 提供了可复用的模式。建议阅读 Dockerfile 中的函数封装和 case 分支,理解如何在 Docker 构建中灵活管理多方驱动。
回退MoE路由捕获机制到共享内存方案
建议密切关注被回退的 device cache 方案与后续 #39568 的演进关系。核心设计决策(共享内存 vs. device pipeline)值得深入阅读 `routed_experts_capturer.py` 中的注释和实现差异。对于直接使用 `routed_experts` API 的客户,需评估移除字段的影响。
为 V1 注意力子系统新增 TOKENSPEED_MLA 后端,优化 Blackwell SM100 上 DeepSeek R1 的 prefill / decode。
值得精读。本 PR 展示了如何在 V1 注意力后端生态中集成一个高性能定制后端,从 backend 类实现、注册、platform 优先级到测试和 benchmark 的最佳实践均有涉及。review 中指出的 scale 缓存和 fallback 设计问题可作为后续改进的参考。建议关注后续修复提交(若有)以解决遗留风险。
修复 ROCm Aiter MoE padding 对齐问题提升性能
值得合并。改动小而精,有明确的性能收益和充分的 benchmark 数据支持。建议关注后续对非标准形状模型的进一步验证。
原始 PR · 作者 zhenwei-intel · 合并时间 2026-05-14 13:13
跳过 XPU CI 中 offload connector 测试
该 PR 为小型 CI 配置修复,无需精读。但可关注关联 PR #36423 的进展,以便及时恢复测试。
原始 PR · 作者 Sarah-Salah · 合并时间 2026-05-14 10:49
修复 ParserManager 中 mypy 类型收窄错误
值得合并。虽然改动微小,但修复了类型检查的正确性,且遵循了项目中已有的惯用法。
原始 PR · 作者 hks-9697-v2 · 合并时间 2026-05-14 10:36
修复 Qwen3.5 权重加载参数传递问题
值得快速合并,修复明确,改动极小。
参与讨论