Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 13:34 同步状态：空闲下次计划：2026-06-01 14:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-01

#38659 [1/N][Cleanup] Standardize on use of `is_quantized_kv_cache`

原始 PR · 作者 MatthewBonanni · 合并时间 2026-04-01 12:08

重构重要性 4.00 洞察度 3.00

标准化量化KV缓存检测，统一使用is_quantized_kv_cache函数替换字符串检查。

建议开发者在涉及量化KV缓存逻辑时关注此变更，但变更机械简单，可作为代码风格改进和集中化检测逻辑的参考，无需深度精读。

refactorcleanupquantization

#38559 [Perf] Optimize mean pooling using chunks and index_add, 5.9% E2E throughput improvement

原始 PR · 作者 yewentao256 · 合并时间 2026-04-01 11:54

性能优化重要性 6.00 洞察度 5.00

优化均值池化方法，使用分块和index_add提升吞吐量5.9%。

建议工程师精读此 PR，关注 chunked index_add_ 的设计决策，以学习内存友好型性能优化技巧。同时，需注意除法为零的风险，可在后续开发中考虑修复或添加额外防护。

performancerefactorcleanup

#37051 Fix priority preemption regression test in scheduler

原始 PR · 作者 ezylopx5 · 合并时间 2026-04-01 11:36

测试重要性 4.00 洞察度 6.00

修复调度器优先级抢占回归测试，替换跳过测试为确定性多步验证。

建议技术管理者关注此PR，因为它展示了如何设计健壮的回归测试以验证核心调度器逻辑。工程师可精读测试函数以理解KV块压力和抢占机制的设计细节。

testbugfixscheduler

#32914 [ROCm][perf] Shuffle KV cache to use paged_attention_common

原始 PR · 作者 samutamm · 合并时间 2026-04-01 11:30

性能优化重要性 6.00 洞察度 7.00

使用paged_attention_common优化ROCm shuffle KV缓存，提升Qwen模型性能。

建议技术管理者和工程师精读此PR，重点关注paged_attention_common的动态路由设计、标志保留决策以及临时张量的内存管理。对于涉及ROCm性能调优或注意力内核开发的工程师，此PR提供了内核选择策略和兼容性权衡的实例。

rocmperformanceattention

#38172 [Misc] Add 20 regression tests for 11 tool parser bug fixes

原始 PR · 作者 bbrowning · 合并时间 2026-04-01 11:00

测试重要性 5.00 洞察度 4.00

为11个工具解析器bug修复添加20个回归测试，防止功能回归。

建议： - **对于工具解析器开发工程师**：值得精读，以了解各种edge cases和bug修复的测试设计。 - **对于测试工程师**：可参考这些测试作为模型特定解析器测试的范例。 - **对于一般读者**：若非相关模块维护者，可略过，重点关注讨论中的技术权衡。

testtool-callingbugfix

#33825 [vLLM IR] 1/N Implement IR skeleton and rms_norm op

原始 PR · 作者 ProExpertProg · 合并时间 2026-04-01 10:15

功能重要性 8.00 洞察度 8.00

实现 vLLM IR 骨架和 rms_norm 操作，为多平台内核提供统一分发框架。

建议技术管理者和工程师精读此 PR，重点关注 IR 框架的设计决策，如操作注册机制、优先级调度系统和编译时降低传递。这些设计为 vLLM 的架构演进提供了可扩展基础，值得借鉴于其他自定义操作迁移。同时，注意性能测试结果和未完成部分（如 fused_add_rms_norm），以规划后续工作。

featurerefactorcompilation

#38148 Fix NaN from stale FP4 scale padding in create_fp4_scale_tensor

原始 PR · 作者 elvircrn · 合并时间 2026-04-01 10:15

缺陷修复重要性 5.00 洞察度 3.00

修复FP4比例张量未初始化导致的NaN污染，确保Blackwell架构上MoE层输出稳定。

建议开发者在处理量化或张量初始化时，精读此PR以了解未初始化内存的风险，并关注`create_fp4_scale_tensor`函数的修改。对于涉及MoE或FP4的代码，注意填充行处理策略。

bugfixquantization

#37160 [Feat][v1] Simple yet General CPU KV Cache Offloading

原始 PR · 作者 ivanium · 合并时间 2026-04-01 08:58

功能重要性 7.00 洞察度 7.00

新增SimpleCPUOffloadConnector，简化CPU KV缓存卸载路径，重用现有基础设施，提升性能与通用性。

该PR值得精读，特别是对于关注缓存卸载和性能优化的工程师。值得关注的设计决策包括：重用现有BlockPool和KVCacheCoordinator以实现简洁性、使用异步DMA传输减少开销、以及懒加载模式的设计。建议关注review中讨论的风险点，如内存管理和API兼容性，并考虑在类似项目中借鉴其模块化实现。

performancefeaturekv-connector

第 213 / 253 页 · 共 2024 条

上一页 1 … 211 212 213 214 215 … 253 下一页