修复 ROCM_AITER_UNIFIED_ATTN 测试中块大小错误,改用动态查询后端偏好。
建议工程师精读此 PR,以学习如何将硬编码配置替换为动态查询,从而提高代码健壮性。关注 `get_preferred_block_size` 方法的使用和测试参数化设计,这对于类似测试场景有借鉴价值。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复 ROCM_AITER_UNIFIED_ATTN 测试中块大小错误,改用动态查询后端偏好。
建议工程师精读此 PR,以学习如何将硬编码配置替换为动态查询,从而提高代码健壮性。关注 `get_preferred_block_size` 方法的使用和测试参数化设计,这对于类似测试场景有借鉴价值。
原始 PR · 作者 chaunceyjiang · 合并时间 2026-03-25 12:06
修复 OpenAI 工具调用流式响应中访问 prev_tool_call_arr 时的索引错误,避免崩溃。
建议工程师精读此 PR 以理解流式处理中工具调用的状态管理逻辑,关注 auto_tool_called 变量的引入和条件检查的调整,这有助于避免类似索引错误;同时注意 review 中提到的死代码问题,可作为代码优化参考。
为vLLM的CUDA Graphs设计文档添加Vision Encoder(ViT)CUDA Graphs详细章节。
建议快速浏览此PR以了解新功能文档,重点关注cuda_graphs_multimodal.md中的设计细节和用法示例。对于技术管理者,可参考文档结构优化模式;对于工程师,无需深入阅读代码,但值得学习文档编写实践。
自动在NFS文件系统上启用模型检查点预取,带RAM保护,提升加载性能。
该PR值得精读,特别关注`_is_nfs_path`和`_checkpoints_fit_in_ram`的实现细节,以及review中关于设计权衡(如条件逻辑和Docker兼容性)的讨论,这对理解vLLM在异构环境下的性能优化策略有参考价值。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-25 08:17
修复 ROCm 平台上 MoE mxfp4 量化由 PR #37128 引入的回归问题,恢复 gpt-oss 功能。
建议工程师精读此 PR,重点关注 tensor 类型兼容性的设计决策(如使用 `.shape` 替代 `.size()`)和 backend 选择逻辑(如 gfx950 gate 和对齐检查)。对于 ROCm 团队,需注意 padding 处理的临时性,并监控相关后续 PR。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-25 07:58
在 AMD ROCm CI 管道中添加 Hybrid SSM 集成测试步骤。
此 PR 值得快速浏览,以了解 CI 测试扩展和跨平台测试策略。关注点在于 CI 配置与硬件目标的匹配,以及如何管理不同 GPU 架构的测试覆盖。对于涉及 ROCm 或 kv-connector 开发的工程师,可参考此 PR 来设置类似测试。
将 release pipeline 中的构建作业从 postmerge 队列迁移到专用 release 队列。
变更简单,无需精读;可作为 CI 配置调整的参考,关注队列命名策略和基础设施依赖性。对于工程师,建议了解 release 和 postmerge 队列的分离目的。
原始 PR · 作者 tianrengao · 合并时间 2026-03-25 07:37
默认禁用 Inductor 运行时断言,以降低大模型前向传播的2ms开销。
该 PR 值得精读,因为它展示了在性能和调试之间的设计权衡,以及如何通过配置和环境变量提供灵活性。建议关注 __post_init__ 中的版本检查和日志级别绑定逻辑,以及测试用例的设计。
参与讨论