Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-29

#43660 [Attention][AMD] Standardize kv layout to blocks first for AMD

原始 PR · 作者 NickLucche · 合并时间 2026-05-29 01:28

重构重要性 6.64 洞察度 6.00

AMD 注意力后端 KV 缓存布局标准化为 blocks-first

**建议精读**：该 PR 体现了注意力后端标准化布局的设计思路，特别是通过 `supports_kv_connector` 类方法实现兼容性控制的设计模式值得借鉴。对于从事 KV connector 或 AMD 后端开发的工程师，理解此变更有助于后续参与模型特定 KVCacheSpec 的实现。 **注意点**：review 中提到的 `rocm.py` 硬编码布局问题虽已解决，但后续维护时应保持警惕，避免在未启用 KV connector 时调用这些函数。

rocmv1attention

#43330 Allow native KV cache dtype in Triton cache update

原始 PR · 作者 mikekg · 合并时间 2026-05-29 00:51

缺陷修复重要性 4.28 洞察度 3.00

修复 Triton KV cache 更新中对原生 dtype 的误拒

理解注意力机制中 dtype 校验的双层架构：后端通过 supported_kv_cache_dtypes 做前置白名单，Triton 层本可依赖后端。此类内部校验建议先在 attention backend 层解决更优雅。

bugfixv1kernel

#43670 [Rust Frontend] Optimize multimodal prompt expansion

原始 PR · 作者 ricky-chaoju · 合并时间 2026-05-29 00:46

性能优化重要性 8.42 洞察度 6.00

优化 Rust 前端多模态提示扩展性能，最高 7.3x 加速

建议精读本 PR，尤其是从 splice 转向预分配单次遍历的优化模式，这对理解向量操作在性能敏感路径上的设计很有价值。同时也展示了如何利用 benchmark 数据驱动决策，以及及时清理临时文件保持代码质量。

performancefrontendmulti-modality

#43356 Add Cosmos3 Reasoner model

原始 PR · 作者 MaciejBalaNV · 合并时间 2026-05-29 00:43

功能重要性 8.29 洞察度 5.00

新增 Cosmos3 Reasoner 模型支持

此 PR 是模型集成的良好范例，展示了如何通过 WeightsMapper 和 secondary_weights 机制快速适配非标准 checkpoint 格式。其中的权重映射模式设计值得学习和参考。推荐在引入其他类似架构（如混合双塔模型）时参考此实现。

featuremodelmulti-modality

#43136 [ROCm] Bump ROCm to 7.2.3

原始 PR · 作者 micah-wil · 合并时间 2026-05-29 00:42

基础设施重要性 3.79 洞察度 3.00

ROCm 7.2.3 升级，移除 profiler hotfix

值得快速审阅并通过，该 PR 是常规的平台依赖升级，逻辑清晰、改动集中，且经过充分验证。

rocmci/buildinfra

#41426 [XPU][MoE] Add WNA16 oracle backend for GPTQ sym-int4 (xpu_fused_moe)

原始 PR · 作者 jasonboukheir · 合并时间 2026-05-29 00:30

功能重要性 8.05 洞察度 5.00

为Intel XPU添加W4A16 INT4 MoE支持

值得精读，尤其是WNA16 oracle的可扩展设计（通过枚举和优先队列选择后端）以及XPUExpertsWNA16如何以最小改动集成到现有FusedMoE框架。关注`_process_weights_xpu`的布局转换逻辑和`apply`中的assert条件设计。

intel-gpuquantizationmoe

#40687 [ROCm][Perf] Support N=5 in wvSplitK skinny GEMM kernels for speculative decoding

原始 PR · 作者 mgehre-amd · 合并时间 2026-05-29 00:28

性能优化重要性 4.80 洞察度 4.00

ROCm 瘦 GEMM 内核支持 N=5，加速推测解码验证

值得合并的针对性性能优化。建议未来考虑自动化特化更多 N 值的方法，以减少手动添加 case 的工作量和编译时间。同时可关注 custom op 的优化机会。

performancerocmkernel

#43870 [KV Offload] Rename `SecondaryTierManager.get_finished()` to `get_finished_jobs()`

原始 PR · 作者 ronensc · 合并时间 2026-05-29 00:00

重构重要性 5.76 洞察度 3.00

重命名 get_finished 为 get_finished_jobs

该 PR 值得精读以了解团队对命名规范的重视。其核心设计决策是明确的命名表达意图，这种做法值得在类似模糊命名的场景下效仿。

refactorv1cleanup

第 26 / 269 页 · 共 2148 条

上一页 1 … 24 25 26 27 28 … 269 下一页