Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 11:45 同步状态：空闲下次计划：2026-05-31 12:45

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-20

#39478 [CPU][RISC-V] Support multiple RVV VLEN targets via compile-time dispatch

原始 PR · 作者 velonica0 · 合并时间 2026-04-20 14:37

功能重要性 7.90 洞察度 6.00

为 RISC-V CPU 内核添加编译时向量长度分派支持，适配不同硬件。

建议技术管理者和工程师精读此 PR，关注其通过编译时宏分派处理硬件多样性的设计模式。尽管存在代码重复的权衡，但实现清晰，对于低层 CPU 内核优化具有参考价值。同时，注意构建配置中的错误处理机制，确保生产环境部署正确。

cpuci/buildfeature

#39916 [BUGFIX] Fix Pixtral consolidated format vision weight loading

原始 PR · 作者 juliendenize · 合并时间 2026-04-20 13:25

缺陷修复重要性 6.18 洞察度 4.00

修复Pixtral模型加载consolidated格式检查点时视觉编码器权重静默丢弃的问题。

建议精读此PR以理解权重加载中的参数映射策略，特别是分片参数与非分片参数的处理方式。关注设计决策如使用重映射字典而非扩展分片列表，以及测试用例的选择权衡。

bugfixmulti-modality

#39977 [XPU] [torch.compile] Skipping CUDA graph memory estimation to avoid startup errors.

原始 PR · 作者 chaojun-zhang · 合并时间 2026-04-20 13:04

缺陷修复重要性 5.29 洞察度 4.00

修复 XPU 后端在 torch.compile 模式下因 CUDA 图内存预估导致的启动错误。

该 PR 代码简洁，目标明确，是解决特定平台兼容性的典型补丁。建议关注其如何通过条件判断优雅处理多后端差异，以及 `cudagraph_mode` 配置的引入对内存管理逻辑的细化。对于从事异构计算或内存优化的工程师，此变更展示了硬件抽象层的最佳实践。

bugfixxputorch.compile

#40245 [Qwen][Bugfix] Fixes sigmoid activation in torch impl of RMSNormGated.

原始 PR · 作者 sighingnow · 合并时间 2026-04-20 12:28

缺陷修复重要性 5.98 洞察度 4.00

修复 RMSNormGated 在原生 PyTorch 实现中缺失 sigmoid 激活函数支持的问题。

该 PR 值得精读，重点关注 RMSNormGated 层中激活函数配置的传递机制和跨后端实现一致性的设计决策。建议关注 `forward_native` 中激活函数选择逻辑的潜在性能优化点。

bugfixqwen

#40314 fix: Do not make function calls when request has no tools for /v1/responses

原始 PR · 作者 terrytangyuan · 合并时间 2026-04-20 12:17

缺陷修复重要性 4.53 洞察度 3.00

修复 /v1/responses API 在请求无工具时仍会触发模型幻觉函数调用的问题。

该 PR 值得快速浏览，以理解 /v1/responses API 工具调用逻辑的关键修复。关注点在于 `construct_tool_dicts` 函数中条件判断的调整，这是修复的核心。虽然变更简单，但揭示了 API 层默认行为与工具检查的交互设计，对于维护前端入口点有参考价值。

frontendbugfix

#39892 [Bugfix][Responses API] Fix streaming tool calls on /v1/responses

原始 PR · 作者 hnt2601 · 合并时间 2026-04-20 11:24

缺陷修复重要性 7.15 洞察度 5.00

修复 /v1/responses API 流式工具调用中 Gemma4 特殊令牌被剥离和 Pydantic v2 序列化错误的问题。

值得精读，特别是对于处理工具调用、Pydantic v2 兼容性和 API 设计的开发者。关注 adjust_request 方法的设计决策，以及如何通过单步构造避免字段跟踪问题，这些技术点对于类似场景有借鉴意义。

bugfixtool-callingfrontend

#39765 [Bugfix] Properly initialize `PerTensorScaleParameter` for fused-on-disk checkpoints

原始 PR · 作者 Alnusjaponica · 合并时间 2026-04-20 10:53

缺陷修复重要性 6.39 洞察度 5.00

修复量化融合检查点中PerTensorScaleParameter未初始化槽位导致反量化错误的问题。

该PR值得精读，因为它揭示了一个在量化模型加载中容易被忽略的静默bug，并通过简单的循环填充策略优雅地解决了问题。关注点包括：1) 理解`PerTensorScaleParameter`在融合权重场景下的行为；2) 学习如何通过保持形状一致性来避免下游兼容性问题；3) 体会代码注释中明确解释设计决策的重要性。

bugfixquantization

#40266 [Doc] Fix typos in token_embed pooling documentation

原始 PR · 作者 YifanLi3 · 合并时间 2026-04-20 10:27

文档重要性 1.77 洞察度 1.00

修复 token_embed 文档中的两处拼写错误。

该 PR 是简单的文档修正，无需精读。对于想了解 pooling 模型 token_embed 任务文档细节的读者，可以快速浏览以确认修正内容。

documentationcleanup

第 152 / 253 页 · 共 2019 条

上一页 1 … 150 151 152 153 154 … 253 下一页