Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 22:03 同步状态：空闲下次计划：2026-05-31 23:03

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-10

#38455 [ROCm] Add RDNA 3.5/4 device IDs (gfx1150, gfx1151, gfx1201)

原始 PR · 作者 dondetir · 合并时间 2026-04-10 19:35

功能重要性 3.00 洞察度 2.00

为AMD RDNA 3.5/4 GPU添加设备ID映射，解决APU设备名称识别问题。

这是一个简单的数据更新PR，不需要深入技术分析。对于ROCm平台维护者，值得关注新增的设备ID及其架构信息（gfx1150/gfx1151/gfx1201）。对于其他工程师，可以快速浏览以了解vLLM如何管理硬件设备映射。

rocm

#37539 [Performance] Remove unnecessary zero-fill of MLA decode output tensor in Aiter backend

原始 PR · 作者 xaguilar-amd · 合并时间 2026-04-10 19:27

性能优化重要性 5.00 洞察度 4.00

将Aiter MLA后端输出张量分配从torch.zeros改为torch.empty，消除冗余GPU内核启动。

该PR值得快速浏览，了解性能优化模式：在确保后续操作完全覆盖的情况下，用torch.empty替代torch.zeros以消除冗余内核启动。关注点在于mla_decode_fwd内核的覆盖保证，这是风险控制的关键。

performancerocmattention

#37352 [Kernel][Hardware][AMD] Add TritonW4A16LinearKernel for ROCm

原始 PR · 作者 jatseng-ai · 合并时间 2026-04-10 18:25

功能重要性 7.00 洞察度 7.00

为AMD MI300 ROCm平台新增Triton W4A16 GEMM内核，支持INT4权重量化推理，提升性能。

该PR值得精读，特别是内核设计和review反馈。关注点包括：Triton JIT内核实现细节、权重处理与压缩张量集成、RDA检测和调优策略。对于内核开发和平台优化有借鉴价值。

kernelrocmquantization

#39290 [model] support FireRedLID

原始 PR · 作者 PatchouliTIS · 合并时间 2026-04-10 16:43

功能重要性 6.00 洞察度 6.00

添加FireRedLID语音语言识别模型支持，扩展vLLM多模态能力。

建议工程师精读此PR，了解如何集成新的编码器-解码器音频模型，以及代码重构的最佳实践。重点关注共享组件提取、review中的优化讨论和示例添加，以学习vLLM模型扩展模式。

modelmulti-modalityfeature

#38205 [ZenCPU] Make PT Backport Patch Accessible to vLLM

原始 PR · 作者 amd-lalithnc · 合并时间 2026-04-10 16:29

重构重要性 6.00 洞察度 6.00

移动PyTorch 2.10的FxGraphCachePickler.dumps补丁至通用位置，修复torch.compile缓存问题。

建议技术管理者和工程师精读此PR，关注其idempotent补丁实现和版本门控设计，这对于处理跨平台兼容性和依赖管理有借鉴价值。

refactorcpuperformance

#33465 [PluggableLayer][3/N] Apply PluggableLayer to llm_head and vocab embedding layer

原始 PR · 作者 whx-sjtu · 合并时间 2026-04-10 16:13

重构重要性 6.00 洞察度 5.00

将LogitsProcessor和词汇并行嵌入层从CustomOp迁移到PluggableLayer框架。

建议技术管理者关注此PR作为架构演进的一部分，了解PluggableLayer的引入背景。工程师可精读VocabParallelEmbedding的forward方法变更，理解从CustomOp到PluggableLayer的接口适配模式。

refactormodelpluggablelayer

#39444 [Bugfix] Fix V1 dummy run writing NaN to KV cache null block

原始 PR · 作者 elvircrn · 合并时间 2026-04-10 16:09

缺陷修复重要性 6.00 洞察度 5.00

修复V1 dummy run将NaN写入KV缓存null block的bug，避免DP+EP部署中的精度回归。

该PR值得精读，尤其关注slot mapping初始化和dummy run交互的设计缺陷。建议工程师：1. 理解`_get_slot_mappings`中填充区域处理逻辑；2. 查看#25954以了解重构历史；3. 考虑为dummy run添加单元测试，避免类似bug。

bugfixperformancekv-connector

#37580 Nemotron Nano VL: Streamline pixel shuffle

原始 PR · 作者 milesial · 合并时间 2026-04-10 15:31

性能优化重要性 5.00 洞察度 6.00

优化Nemotron Nano VL模型的像素重排操作，减少内存复制提升性能。

该PR展示了针对视觉模型张量操作的经典性能优化技巧，值得视觉模型开发者和性能优化工程师精读。重点关注：1）如何通过合并维度操作减少内存复制；2）view与reshape的正确使用场景；3）动态分辨率处理函数的简化模式。

performancemodelmulti-modality

第 181 / 253 页 · 共 2020 条

上一页 1 … 179 180 181 182 183 … 253 下一页