Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 19:59 同步状态：空闲下次计划：2026-05-31 20:59

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-13

#37727 [Bugfix] Fix Responses API instructions leaking through previous_response_id

原始 PR · 作者 he-yufeng · 合并时间 2026-04-13 16:46

缺陷修复重要性 5.00 洞察度 4.00

修复Responses API中previous_response_id导致instructions泄漏的问题

该PR值得精读，特别是对于处理OpenAI兼容API的开发者。关注点： 1. 理解OpenAI Responses API中instructions参数的设计意图 2. 学习如何正确处理跨请求的消息历史管理 3. 参考新增的测试用例，了解如何全面测试此类边界条件

frontendbugfixresponses-api

#38827 feat: add max_tokens_per_doc in rerank request.

原始 PR · 作者 jefp · 合并时间 2026-04-13 16:24

功能重要性 6.00 洞察度 6.00

为 rerank 和 score 请求添加 max_tokens_per_doc/query 参数，支持文档/查询独立截断以对齐 Cohere/Jina API。

该 PR 值得精读，重点关注 io_processor.py 中的截断策略设计（三种模型路径处理）、protocol.py 的继承重构以消除重复代码，以及测试中参数化 fixture 的优化模式。这些决策展示了在兼容性和性能间的权衡。

frontendfeaturepooling

#39253 [Bugfix] Fix GLM tool parser streaming with MTP or stream interval

原始 PR · 作者 sfeng33 · 合并时间 2026-04-13 13:10

缺陷修复重要性 8.60 洞察度 6.00

修复 GLM 工具解析器在流式传输和推测解码下的参数格式错误。

该 PR 值得精读，特别是 `_extract_content` 和 `_build_args_json_so_far` 方法的设计，展示了从状态机到无状态解析的转换如何解决流式处理挑战。关注 `partial_tag_overlap` 函数的实现，它在处理部分标签时起到关键作用，可借鉴于类似流式解析场景。

bugfixtool-calling

#35698 [XPU]Enhance environment collection for Intel XPU and optimize layout

原始 PR · 作者 1643661061leo · 合并时间 2026-04-13 12:51

功能重要性 4.00 洞察度 5.00

扩展环境收集脚本以支持Intel XPU，优化信息分类与显示。

建议技术管理者关注此PR中包检测函数的设计，了解其潜在改进点；工程师可精读get_pkg_version()的实现，学习如何处理多包管理器适配，并注意条件输出逻辑如何优雅处理平台差异。

xpudocumentation

#39530 feat: rename logit_bias/logit_scale to logit_mean/logit_sigma for affine score calibration

原始 PR · 作者 jefp · 合并时间 2026-04-13 12:43

重构重要性 5.00 洞察度 5.00

重命名 affine score calibration 参数为 logit_mean/logit_sigma 以对齐 LayerNorm 约定，确保向后兼容。

此 PR 值得精读，特别是对于涉及池化模型和配置管理的开发者。关注 `PoolerConfig.__post_init__` 中的弃用处理逻辑和池化头中 out-of-place 操作的设计决策，以学习如何安全地进行 API 重命名和向后兼容策略。

refactorfeaturepooling

#39655 fix(lmcache): correct store for cached requests and num_scheduled_tokens in lmcache_mp_connector.py

原始 PR · 作者 maobaolong · 合并时间 2026-04-13 11:29

缺陷修复重要性 5.00 洞察度 4.00

修复LMCache MP连接器中缓存请求的KV存储逻辑和令牌计数错误。

该PR值得精读，特别是对于涉及LMCache和KV连接器模块的开发者。关注点：1. 如何正确处理缓存请求的增量令牌计数；2. LMCache命中块在存储计算中的纳入逻辑，体现了KV存储的边界处理设计。

kv-connectorbugfix

#37376 fused qknorm+rope kernel optimization for SM9.0

原始 PR · 作者 EricccYang · 合并时间 2026-04-13 10:58

性能优化重要性 8.00 洞察度 8.00

优化fused qknorm+rope kernel，通过动态调整每个warp的token-head数量，提升H100上大批次推理性能。

建议技术管理者和工程师精读此PR，重点关注多token-head kernel的设计思路、cp.async异步复制技术，以及动态阈值调度策略，这些对高性能CUDA编程和kernel优化有重要借鉴价值。

performancekernelnvidia

#39201 [compile] Enable AOT compile with batch invariance mode.

原始 PR · 作者 zhxchen17 · 合并时间 2026-04-13 10:58

功能重要性 4.00 洞察度 3.00

移除AOT编译与批不变模式的互斥限制，允许两者同时启用。

该PR变更简单直接，适合快速浏览以了解编译与批不变模式的兼容性改进。值得关注的设计决策是移除了未经验证的互斥限制，体现了对功能成熟度的信心。建议结合测试结果和后续使用反馈评估实际效果。

compilationfeature

第 175 / 253 页 · 共 2020 条

上一页 1 … 173 174 175 176 177 … 253 下一页