修复Transformers v5下offline mode测试的模块别名处理问题。
建议快速浏览此PR以了解如何适配Transformers v5的模块别名变化,对于处理类似测试场景有参考价值。无需深度精读,除非关注测试基础设施。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复Transformers v5下offline mode测试的模块别名处理问题。
建议快速浏览此PR以了解如何适配Transformers v5的模块别名变化,对于处理类似测试场景有参考价值。无需深度精读,除非关注测试基础设施。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-25 18:55
为 ROCm 平台添加 ROCM_EXTRA_ARGS 到两个测试文件并早期验证 pooling params,修复 flaky 的嵌入测试。
建议关注测试设计的权衡,尤其是 `ROCM_EXTRA_ARGS` 的使用是否应更明确标注或跳过相关测试。同时,异常处理更改值得了解,可参考相关 issue 以跟踪批不变性问题进展。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-25 18:24
修复ROCm平台realtime WebSocket死锁和模型验证错误处理漏洞
建议工程师精读此PR,重点关注`handle_event`方法中的错误处理改进和测试用例设计,这些是提升realtime功能健壮性的关键。同时,了解ROCm平台特定超时设置的调整策略。
原始 PR · 作者 jikunshang · 合并时间 2026-03-25 18:14
在XPU平台添加empty_cache调用以对齐CUDA内存分析,但测量逻辑可能不正确。
建议关注此PR中未解决的逻辑问题,后续可能需要修复测量逻辑以真正对齐CUDA。对于技术管理者,值得检查是否有相关issue跟进;对于工程师,可精读review讨论以了解硬件平台内存测量差异和潜在改进点。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-25 18:06
在 ROCm 平台上将 OpenAPI 模式测试超时增加三倍。
此 PR 逻辑简单,适用于快速了解 ROCm 测试调整;无需深度阅读,但可关注平台特定超时设置模式,作为处理异构基础设施的参考。
原始 PR · 作者 jikunshang · 合并时间 2026-03-25 17:43
在Intel GPU(XPU)上启用MLA模型支持,优化attention后端。
建议重点关注`forward_xpu`方法的实现问题,并查看相关讨论以了解潜在风险。此PR涉及跨平台支持,值得精读以理解MLA在XPU上的集成方式和设计权衡。
重新排序ROCm attention后端优先级,将ROCM_ATTN设为最高优先级,移除环境变量VLLM_ROCM_CUSTOM_PAGED_ATTN。
建议技术管理者和工程师精读此PR,重点关注`_get_backend_priorities`函数的设计决策和优先级调整,以及`sinks`支持变更的权衡。同时,留意未解决的aiter检查问题,可能需要在后续PR中处理。
原始 PR · 作者 chaunceyjiang · 合并时间 2026-03-25 14:19
移除CUDA torch fallbacks,使deep_gemm成为FP8 MQA logits的硬性要求。
建议技术管理者关注此变更对部署环境的兼容性影响,工程师应精读此PR以理解硬件支持与兼容性的设计权衡,特别是review中关于deep_gemm检查的讨论,值得借鉴用于类似决策。
参与讨论