Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-29
测试 重要性 7.60 洞察度 4.00

为 Nixl+SimpleCPUOffload 多连接器添加单元测试

建议开发者查阅本测试了解 MultiConnector 的模拟验证方式,对涉及 Nixl 与 CPU Offload 的贡献者尤其有参考价值。

#43565 [XPU] support MTP of gdn attention

原始 PR · 作者 mayuyuace · 合并时间 2026-05-29 17:10

功能 重要性 6.47 洞察度 5.00

XPU GDN 注意力支持 MTP 推测解码

该 PR 功能明确、改动集中,值得相关开发人员精读。关注的要点: - 如何将推测解码元数据从 attention metadata 提取并传递给底层内核。 - 使用局部变量统一管理内核参数的模式,便于后续扩展。 - 与 CUDA 端同类实现(参考 `qwen_gdn_linear_attn.py`)的对比可加深对跨平台一致性设计的理解。 - 自动化 review 中提出的代码质量建议虽未完全采纳,但可作为后续代码清洁的切入点。

缺陷修复 重要性 4.87 洞察度 2.00

修复 ROCm CI 中 MoRI 单元测试被错误跳过的问题

可供快速合并,无重大问题。建议 CI 相关人员了解变更背景,并关注后续 e2e 测试是否按 PR 描述使用 RDMA 后端。

缺陷修复 重要性 6.72 洞察度 5.00

修复 ROCm AITER cross-attention 共享 KV 缓存布局问题

推荐合并。修正逻辑清晰、变更最小、已通过回归测试。可作为「架构演进中保持后端兼容性」的典型案例精读:展示了在大规模 layout 标准化过程中,如何通过细粒度的条件分支保护混合使用不同布局的共享资源,避免回归。

缺陷修复 重要性 5.55 洞察度 3.00

Responses API 支持 chat_template_kwargs 传递

修复明确、风险低、影响集中在特定模型配置场景。建议阅读以了解 Responses API 与 chat_template_kwargs 的交互逻辑。无需精读。

性能优化 重要性 4.02 洞察度 5.00

消除稀疏注意力 GPU 气泡

建议合入。此 PR 很好地展示了如何通过消除 GPU 微气泡来提升性能,是 ROCm 上 DSv4 推理链路中的一次精细优化。值得关注的设计点:用 `torch.zeros` 合并赋值操作减少 kernel launch、用已知 host 值替代 D2H 同步获取 `indptr[-1]`。

性能优化 重要性 5.78 洞察度 6.00

CPU top-k/top-p 采样切换到 Triton 实现

本 PR 虽改动量小,但展示了在 CPU 后端使用 Triton 的典型模式:调整 block size、条件编译、集成测试。值得关注其设计权衡和 CI 集成方式。建议阅读以了解 vLLM CPU 后端的优化方向。

参与讨论