#43871 [CI] Nixl+SimpleCPUOffloadingConnector unit tests
原始 PR · 作者 NickLucche · 合并时间 2026-05-29 17:40
为 Nixl+SimpleCPUOffload 多连接器添加单元测试
建议开发者查阅本测试了解 MultiConnector 的模拟验证方式,对涉及 Nixl 与 CPU Offload 的贡献者尤其有参考价值。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 NickLucche · 合并时间 2026-05-29 17:40
为 Nixl+SimpleCPUOffload 多连接器添加单元测试
建议开发者查阅本测试了解 MultiConnector 的模拟验证方式,对涉及 Nixl 与 CPU Offload 的贡献者尤其有参考价值。
XPU GDN 注意力支持 MTP 推测解码
该 PR 功能明确、改动集中,值得相关开发人员精读。关注的要点: - 如何将推测解码元数据从 attention metadata 提取并传递给底层内核。 - 使用局部变量统一管理内核参数的模式,便于后续扩展。 - 与 CUDA 端同类实现(参考 `qwen_gdn_linear_attn.py`)的对比可加深对跨平台一致性设计的理解。 - 自动化 review 中提出的代码质量建议虽未完全采纳,但可作为后续代码清洁的切入点。
原始 PR · 作者 simondanielsson · 合并时间 2026-05-29 17:06
修复 ROCm CI 中 MoRI 单元测试被错误跳过的问题
可供快速合并,无重大问题。建议 CI 相关人员了解变更背景,并关注后续 e2e 测试是否按 PR 描述使用 RDMA 后端。
原始 PR · 作者 jikunshang · 合并时间 2026-05-29 17:05
更新 XPU 安装文档中 triton-xpu 版本号
简单文档更新,无需精读。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-05-29 16:43
修复 ROCm AITER cross-attention 共享 KV 缓存布局问题
推荐合并。修正逻辑清晰、变更最小、已通过回归测试。可作为「架构演进中保持后端兼容性」的典型案例精读:展示了在大规模 layout 标准化过程中,如何通过细粒度的条件分支保护混合使用不同布局的共享资源,避免回归。
原始 PR · 作者 chaunceyjiang · 合并时间 2026-05-29 15:58
Responses API 支持 chat_template_kwargs 传递
修复明确、风险低、影响集中在特定模型配置场景。建议阅读以了解 Responses API 与 chat_template_kwargs 的交互逻辑。无需精读。
消除稀疏注意力 GPU 气泡
建议合入。此 PR 很好地展示了如何通过消除 GPU 微气泡来提升性能,是 ROCm 上 DSv4 推理链路中的一次精细优化。值得关注的设计点:用 `torch.zeros` 合并赋值操作减少 kernel launch、用已知 host 值替代 D2H 同步获取 `indptr[-1]`。
CPU top-k/top-p 采样切换到 Triton 实现
本 PR 虽改动量小,但展示了在 CPU 后端使用 Triton 的典型模式:调整 block size、条件编译、集成测试。值得关注其设计权衡和 CI 集成方式。建议阅读以了解 vLLM CPU 后端的优化方向。
参与讨论