Prhub
← 返回仓库列表

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-04-19 06:03 同步状态:空闲 下次计划:2026-04-19 07:03

PR 列表

已合并 793 · 已分析 793
更多筛选
2026-04-13

#39225 [Bug] Fix rocm sparse attn indexer issue

作者 yewentao256 · 合并时间 2026-04-13 22:53

缺陷修复 重要性 4.00 洞察度 3.00

修复ROCm稀疏注意力索引器在推测解码下因张量填充导致的越界读取问题。

该PR代码简洁,但涉及底层内核安全,建议ROCm用户关注。值得精读review讨论中关于张量填充处理的权衡,理解为何未采纳num_actual_tokens方案。

#39418 [Bugfix][CT] Fix KV cache scale handling

作者 yiliu30 · 合并时间 2026-04-13 22:50

缺陷修复 重要性 6.00 洞察度 4.00

修复压缩张量量化中KV缓存scale处理缺失导致的输出乱码问题。

该PR值得快速浏览以了解quantization中scale处理机制,特别是`_float`变量的作用。对于从事量化开发的工程师,可以关注`_to_scalar`函数的设计,它处理了不同scale策略(如单scale vs. 多scale)。

缺陷修复 重要性 6.00 洞察度 6.00

修复模型加载时 hf_config.architectures 为 None 引发的 TypeError。

建议工程师精读此 PR,特别是 vllm/config/vllm.py 中的 with_hf_config 方法新逻辑和 vllm/model_executor/model_loader/utils.py 的修复,以理解配置解析的改进和设计权衡,如通用化修复 vs 特定硬编码。

缺陷修复 重要性 5.00 洞察度 4.00

修复Responses API中previous_response_id导致instructions泄漏的问题

该PR值得精读,特别是对于处理OpenAI兼容API的开发者。关注点: 1. 理解OpenAI Responses API中instructions参数的设计意图 2. 学习如何正确处理跨请求的消息历史管理 3. 参考新增的测试用例,了解如何全面测试此类边界条件

#38827 feat: add max_tokens_per_doc in rerank request.

作者 jefp · 合并时间 2026-04-13 16:24

功能 重要性 6.00 洞察度 6.00

为 rerank 和 score 请求添加 max_tokens_per_doc/query 参数,支持文档/查询独立截断以对齐 Cohere/Jina API。

该 PR 值得精读,重点关注 io_processor.py 中的截断策略设计(三种模型路径处理)、protocol.py 的继承重构以消除重复代码,以及测试中参数化 fixture 的优化模式。这些决策展示了在兼容性和性能间的权衡。

缺陷修复 重要性 6.00 洞察度 6.00

修复GLM工具解析器在流式推理和MTP推测解码下的参数格式错误。

建议技术管理者和工程师精读此PR,以了解从状态机到无状态重新解析方法的设计权衡,重点关注`_extract_content`和`_build_args_json_so_far`方法中的流式处理逻辑。

参与讨论