#39225 [Bug] Fix rocm sparse attn indexer issue
作者 yewentao256 · 合并时间 2026-04-13 22:53
修复ROCm稀疏注意力索引器在推测解码下因张量填充导致的越界读取问题。
该PR代码简洁,但涉及底层内核安全,建议ROCm用户关注。值得精读review讨论中关于张量填充处理的权衡,理解为何未采纳num_actual_tokens方案。
A high-throughput and memory-efficient inference and serving engine for LLMs
作者 yewentao256 · 合并时间 2026-04-13 22:53
修复ROCm稀疏注意力索引器在推测解码下因张量填充导致的越界读取问题。
该PR代码简洁,但涉及底层内核安全,建议ROCm用户关注。值得精读review讨论中关于张量填充处理的权衡,理解为何未采纳num_actual_tokens方案。
作者 yiliu30 · 合并时间 2026-04-13 22:50
修复压缩张量量化中KV缓存scale处理缺失导致的输出乱码问题。
该PR值得快速浏览以了解quantization中scale处理机制,特别是`_float`变量的作用。对于从事量化开发的工程师,可以关注`_to_scalar`函数的设计,它处理了不同scale策略(如单scale vs. 多scale)。
作者 ekagra-ranjan · 合并时间 2026-04-13 22:20
修复音频转录/翻译端点流式推理时缺失模型名称导致的验证错误。
该PR变更简单直接,值得快速浏览以了解前端验证的修复模式。关注点:如何为缺失参数设置默认值以保持API一致性。
作者 TihoElek · 合并时间 2026-04-13 19:13
修复模型加载时 hf_config.architectures 为 None 引发的 TypeError。
建议工程师精读此 PR,特别是 vllm/config/vllm.py 中的 with_hf_config 方法新逻辑和 vllm/model_executor/model_loader/utils.py 的修复,以理解配置解析的改进和设计权衡,如通用化修复 vs 特定硬编码。
作者 zufangzhu · 合并时间 2026-04-13 16:59
为 XPU 平台添加 MXFP8 量化 GEMM 内核和新压缩张量方案。
建议技术管理者关注此 PR 以了解 XPU 量化扩展策略,工程师可精读 `xpu.py` 中的内核实现,学习如何适配新平台的量化计算和设计回退机制。
作者 he-yufeng · 合并时间 2026-04-13 16:46
修复Responses API中previous_response_id导致instructions泄漏的问题
该PR值得精读,特别是对于处理OpenAI兼容API的开发者。关注点: 1. 理解OpenAI Responses API中instructions参数的设计意图 2. 学习如何正确处理跨请求的消息历史管理 3. 参考新增的测试用例,了解如何全面测试此类边界条件
作者 jefp · 合并时间 2026-04-13 16:24
为 rerank 和 score 请求添加 max_tokens_per_doc/query 参数,支持文档/查询独立截断以对齐 Cohere/Jina API。
该 PR 值得精读,重点关注 io_processor.py 中的截断策略设计(三种模型路径处理)、protocol.py 的继承重构以消除重复代码,以及测试中参数化 fixture 的优化模式。这些决策展示了在兼容性和性能间的权衡。
作者 sfeng33 · 合并时间 2026-04-13 13:10
修复GLM工具解析器在流式推理和MTP推测解码下的参数格式错误。
建议技术管理者和工程师精读此PR,以了解从状态机到无状态重新解析方法的设计权衡,重点关注`_extract_content`和`_build_args_json_so_far`方法中的流式处理逻辑。
参与讨论