Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 01:11 同步状态：空闲下次计划：2026-06-01 02:11

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-09

#39322 [Feature] Batch invariant nvfp4 linear support

原始 PR · 作者 yewentao256 · 合并时间 2026-04-09 04:29

功能重要性 6.00 洞察度 5.00

添加 NVFP4 线性层对批量不变性的支持，确保量化模型推理确定性。

建议技术管理者关注 EMULATION 后端实现中的潜在正确性问题，并考虑后续修复；工程师可精读测试文件以理解批量不变性验证方法，但核心代码变更简单，讨论中的问题值得注意。

featurequantizationperformance

#39005 [MoE] Move DEEP_GEMM into experts/ subdirectory

原始 PR · 作者 Jackmin801 · 合并时间 2026-04-09 03:23

重构重要性 4.00 洞察度 3.00

将 DEEP_GEMM MoE 内核文件移至 experts/ 子目录以统一组织。

此 PR 是简单的文件重组，无需深入阅读内核逻辑。建议维护 MoE 模块的开发者检查导入更新是否完整，并关注后续可能的相关重构。对于代码组织模式有参考价值，可作为类似迁移的范例。

refactormodel

#39027 [Tool] `adjust_request` to reasoning parser, and Gemma4 fixes

原始 PR · 作者 bbrowning · 合并时间 2026-04-09 03:04

缺陷修复重要性 6.00 洞察度 6.00

修复Gemma4模型多轮工具调用和推理问题，添加adjust_request方法到推理解析器。

此PR值得精读，重点关注以下设计决策：1. adjust_request方法的引入，展示了如何在推理解析器中动态调整请求参数，平衡模型特定需求与通用接口。2. 聊天模板的定制化实现，处理工具结果编码和多轮对话逻辑，可作为复杂模型集成的参考。3. review中提到的风险点（如全局硬编码和猴子补丁）提供了实际开发中的教训，建议在类似变更中避免类似模式。

tool-callingfrontendbugfix

#38835 [Attention] relax the head dim 512 and paged kv for sm90+FA4

原始 PR · 作者 IwakuraRein · 合并时间 2026-04-09 02:23

功能重要性 6.00 洞察度 5.00

解除 SM90 GPU 上 FlashAttention 4 对 head dim 512 和 paged KV 的限制，提升大模型性能。

建议技术管理者和工程师精读此 PR，特别是 flash_attn.py 中的变更，以理解如何通过版本控制和硬件检测来优化注意力后端选择。设计决策值得关注，如动态升级 FA4 和条件性支持 head size，可用于类似场景。

featureattentionperformance

#37421 [Perf][Kernel] Persistent TopK scheduler: unified CUDAGraph-safe kernel with dynamic per-row dispatch - DeepSeek-V3.2 DSA decode

原始 PR · 作者 LopezCastroRoberto · 合并时间 2026-04-09 01:35

性能优化重要性 6.00 洞察度 6.00

为 DeepSeek-V3.2 设计 persistent TopK 调度器，统一内核并动态分发路径以提升长序列性能。

建议技术管理者和工程师精读此 PR，重点关注 persistent scheduler 的设计思路、动态路径选择策略以及 CUDAGraph 安全性的实现方式。对于内核开发者，可借鉴其统一内核与动态分发的优化模式。

performancedeepseeknvidia

#38635 [Feature] NUMA binding support for GPU workers

原始 PR · 作者 Harry-Chen · 合并时间 2026-04-09 00:55

功能重要性 6.00 洞察度 7.00

添加GPU worker的NUMA绑定支持，优化多socket系统性能。

建议技术管理者和工程师精读此PR，关注NUMA绑定的设计决策，如自动检测与手动覆盖的平衡、平台兼容性处理（如Grace Blackwell支持）、以及风险缓解措施（如shell注入检查）。对于部署在多socket环境的系统，此功能值得评估以优化性能。

featureperformancenvidia

#37109 [kv_offload+HMA][5/N]: Track group block hashes and block IDs

原始 PR · 作者 orozery · 合并时间 2026-04-09 00:50

重构重要性 6.00 洞察度 6.00

重构 OffloadingConnectorScheduler，引入 OffloadKey 支持多组 KV 缓存卸载跟踪。

建议：此 PR 值得精读，特别是 `RequestOffloadState` 的状态管理设计和 `OffloadKey` 的设计权衡（GC 开销 vs. 可读性）。关注接口变化如何为多组支持做准备，并注意单组断言在代码中的位置。

kv-connectorrefactor

#39114 [Bugfix] Fix Gemma4 streaming tool call corruption for split boolean/number values

原始 PR · 作者 sfeng33 · 合并时间 2026-04-09 00:46

缺陷修复重要性 5.00 洞察度 5.00

修复Gemma4流式工具调用中布尔/数值跨token分割导致的类型损坏

该PR值得精读，特别是_parse_gemma4_args和_parse_gemma4_array中partial参数的设计，展示了如何处理流式解析中的不完整输入以避免类型损坏。对于从事工具解析或流式处理的工程师，这是一个实用的模式。

bugfixtool-callingfrontend

第 190 / 253 页 · 共 2020 条

上一页 1 … 188 189 190 191 192 … 253 下一页