Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-14 03:59 同步状态：空闲下次计划：2026-06-14 04:59

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-29

#43565 [XPU] support MTP of gdn attention

原始 PR · 作者 mayuyuace · 合并时间 2026-05-29 17:10

功能重要性 6.47 洞察度 5.00

XPU GDN 注意力支持 MTP 推测解码

该 PR 功能明确、改动集中，值得相关开发人员精读。关注的要点： - 如何将推测解码元数据从 attention metadata 提取并传递给底层内核。 - 使用局部变量统一管理内核参数的模式，便于后续扩展。 - 与 CUDA 端同类实现（参考 `qwen_gdn_linear_attn.py`）的对比可加深对跨平台一致性设计的理解。 - 自动化 review 中提出的代码质量建议虽未完全采纳，但可作为后续代码清洁的切入点。

featureintel-gpuperformance

#43703 [CI][ROCm] Don't skip MoRI-IO Connector tests

原始 PR · 作者 simondanielsson · 合并时间 2026-05-29 17:06

缺陷修复重要性 4.87 洞察度 2.00

修复 ROCm CI 中 MoRI 单元测试被错误跳过的问题

可供快速合并，无重大问题。建议 CI 相关人员了解变更背景，并关注后续 e2e 测试是否按 PR 描述使用 RDMA 后端。

bugfixrocmtest

#43947 [XPU] fix xpu install document triton-xpu version

原始 PR · 作者 jikunshang · 合并时间 2026-05-29 17:05

文档重要性 1.70 洞察度 2.00

更新 XPU 安装文档中 triton-xpu 版本号

简单文档更新，无需精读。

documentationintel-gpucleanup

#43945 [ROCm][CI] Fix AITER unified attention for encoder-decoder cross-attention

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-05-29 16:43

缺陷修复重要性 6.72 洞察度 5.00

修复 ROCm AITER cross-attention 共享 KV 缓存布局问题

推荐合并。修正逻辑清晰、变更最小、已通过回归测试。可作为「架构演进中保持后端兼容性」的典型案例精读：展示了在大规模 layout 标准化过程中，如何通过细粒度的条件分支保护混合使用不同布局的共享资源，避免回归。

bugfixrocmv1

#43761 [Frontend]Responses API supports chat_template_kwargs

原始 PR · 作者 chaunceyjiang · 合并时间 2026-05-29 15:58

缺陷修复重要性 5.55 洞察度 3.00

Responses API 支持 chat_template_kwargs 传递

修复明确、风险低、影响集中在特定模型配置场景。建议阅读以了解 Responses API 与 chat_template_kwargs 的交互逻辑。无需精读。

frontendbugfixresponses-api

#43898 [ROCm][DSv4] Remove device pipeline stall in sparse attention

原始 PR · 作者 kliuae · 合并时间 2026-05-29 15:42

性能优化重要性 4.02 洞察度 5.00

消除稀疏注意力 GPU 气泡

建议合入。此 PR 很好地展示了如何通过消除 GPU 微气泡来提升性能，是 ROCm 上 DSv4 推理链路中的一次精细优化。值得关注的设计点：用 `torch.zeros` 合并赋值操作减少 kernel launch、用已知 host 值替代 D2H 同步获取 `indptr[-1]`。

rocmperformancedeepseek

#43633 [CPU Backend] CPU top-k and top-p sampling kernels using Triton

原始 PR · 作者 tianmu-li · 合并时间 2026-05-29 15:02

性能优化重要性 5.78 洞察度 6.00

CPU top-k/top-p 采样切换到 Triton 实现

本 PR 虽改动量小，但展示了在 CPU 后端使用 Triton 的典型模式：调整 block size、条件编译、集成测试。值得关注其设计权衡和 CI 集成方式。建议阅读以了解 vLLM CPU 后端的优化方向。

cpuperformancev1

#42822 add gelu_tanh to xpu moe backend supported activations

原始 PR · 作者 yintong-lu · 合并时间 2026-05-29 14:37

缺陷修复重要性 4.90 洞察度 2.00

XPU MoE 支持 gelu_tanh 激活函数

该 PR 为简单的兼容性修复，建议快速合并，但需确保关联的 xpu-kernels PR 已合入并更新依赖。

bugfixintel-gpumoe

第 66 / 313 页 · 共 2499 条

上一页 1 … 64 65 66 67 68 … 313 下一页