Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-04-21 16:25 同步状态：空闲下次计划：2026-04-21 17:25

PR 列表

已合并 856 · 已分析 856

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-10

#38205 [ZenCPU] Make PT Backport Patch Accessible to vLLM

原始 PR · 作者 amd-lalithnc · 合并时间 2026-04-10 16:29

重构重要性 6.00 洞察度 6.00

移动PyTorch 2.10的FxGraphCachePickler.dumps补丁至通用位置，修复torch.compile缓存问题。

建议技术管理者和工程师精读此PR，关注其idempotent补丁实现和版本门控设计，这对于处理跨平台兼容性和依赖管理有借鉴价值。

refactorv1cpu

#33465 [PluggableLayer][3/N] Apply PluggableLayer to llm_head and vocab embedding layer

原始 PR · 作者 whx-sjtu · 合并时间 2026-04-10 16:13

重构重要性 6.00 洞察度 5.00

将LogitsProcessor和词汇并行嵌入层从CustomOp迁移到PluggableLayer框架。

建议技术管理者关注此PR作为架构演进的一部分，了解PluggableLayer的引入背景。工程师可精读VocabParallelEmbedding的forward方法变更，理解从CustomOp到PluggableLayer的接口适配模式。

v1refactorcore

#39444 [Bugfix] Fix V1 dummy run writing NaN to KV cache null block

原始 PR · 作者 elvircrn · 合并时间 2026-04-10 16:09

缺陷修复重要性 6.00 洞察度 5.00

修复V1 dummy run将NaN写入KV缓存null block的bug，避免DP+EP部署中的精度回归。

该PR值得精读，尤其关注slot mapping初始化和dummy run交互的设计缺陷。建议工程师：1. 理解`_get_slot_mappings`中填充区域处理逻辑；2. 查看#25954以了解重构历史；3. 考虑为dummy run添加单元测试，避免类似bug。

bugfixv1core

#37580 Nemotron Nano VL: Streamline pixel shuffle

原始 PR · 作者 milesial · 合并时间 2026-04-10 15:31

性能优化重要性 5.00 洞察度 6.00

优化Nemotron Nano VL模型的像素重排操作，减少内存复制提升性能。

该PR展示了针对视觉模型张量操作的经典性能优化技巧，值得视觉模型开发者和性能优化工程师精读。重点关注：1）如何通过合并维度操作减少内存复制；2）view与reshape的正确使用场景；3）动态分辨率处理函数的简化模式。

performancemodelv1

#38123 [compile] Allow strings in custom ops without regressing compilation times

原始 PR · 作者 zou3519 · 合并时间 2026-04-10 15:26

性能优化重要性 9.18 洞察度 7.00

引入LayerName不透明类型优化自定义操作符编译时间，避免字符串常量导致的重复编译。

建议精读 `vllm/utils/torch_utils.py` 中的 LayerName 实现，了解如何利用 PyTorch 不透明类型优化编译；同时关注编译融合模式中的条件逻辑设计，这对处理版本差异和性能调优有参考价值。

compilationperformancev1

#39471 [GGUF] Support non-standard quant types with prefix (e.g. UD-IQ1_S)

原始 PR · 作者 sts07142 · 合并时间 2026-04-10 15:22

功能重要性 5.00 洞察度 4.00

支持带前缀的非标准GGUF量化类型，如UD-IQ1_S，扩展模型加载兼容性。

该PR值得精读，特别是is_nonstandard_gguf_quant_type函数的设计，展示了如何通过后缀验证灵活扩展类型识别，同时保持向后兼容性。关注点：1. 使用rsplit而非split确保处理多层前缀；2. 警告日志记录非标准类型，便于问题追踪；3. 测试用例全面覆盖各种前缀场景。

featurev1quantization

#39439 update CODEOWNERS file

原始 PR · 作者 xuechendi · 合并时间 2026-04-10 15:05

基础设施重要性 3.00 洞察度 2.00

更新CODEOWNERS文件，将xuechendi添加为Intel CPU/XPU和KV传输组件的代码所有者。

此PR无需深入技术审查，但对于项目管理者值得关注，因为它反映了团队职责的正式分配。对于工程师，可以快速浏览以了解谁负责审查Intel CPU/XPU和KV传输相关代码。

documentationciv1

#38794 [Perf] Reduce H2D pageable memory copies

原始 PR · 作者 jackcfwang · 合并时间 2026-04-10 15:03

性能优化重要性 6.00 洞察度 6.00

优化Triton attention内核的H2D内存复制，通过缓存mm_prefix_range_tensor减少transformer层间气泡。

值得精读，尤其关注高性能计算中内存传输优化的设计决策，如缓存策略选择、避免冗余计算的技巧，以及review中关于性能权衡的讨论。

performancev1attention

第 36 / 107 页 · 共 856 条

上一页 1 … 34 35 36 37 38 … 107 下一页

支持 Prhub ♥