Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 10:58 同步状态：空闲下次计划：2026-06-04 11:58

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-25

#38095 Fix offline mode test for Transformers v5

原始 PR · 作者 hmellor · 合并时间 2026-03-25 19:39

测试重要性 4.00 洞察度 3.00

修复Transformers v5下offline mode测试的模块别名处理问题。

建议快速浏览此PR以了解如何适配Transformers v5的模块别名变化，对于处理类似测试场景有参考价值。无需深度精读，除非关注测试基础设施。

bugfixtestrefactor

#37616 [ROCm][CI] Fix flaky Cohere/OpenAI embedding parity test

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-25 18:55

缺陷修复重要性 4.00 洞察度 5.00

为 ROCm 平台添加 ROCM_EXTRA_ARGS 到两个测试文件并早期验证 pooling params，修复 flaky 的嵌入测试。

建议关注测试设计的权衡，尤其是 `ROCM_EXTRA_ARGS` 的使用是否应更明确标注或跳过相关测试。同时，异常处理更改值得了解，可参考相关 issue 以跟踪批不变性问题进展。

rocmtestbugfix

#37483 [CI] Fix realtime WebSocket timeout deadlock and unhandled model validation errors

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-25 18:24

缺陷修复重要性 6.00 洞察度 5.00

修复ROCm平台realtime WebSocket死锁和模型验证错误处理漏洞

建议工程师精读此PR，重点关注`handle_event`方法中的错误处理改进和测试用例设计，这些是提升realtime功能健壮性的关键。同时，了解ROCm平台特定超时设置的调整策略。

bugfixrocmfrontend

#37029 [Hardware][XPU] Align memory usage with cuda on xpu

原始 PR · 作者 jikunshang · 合并时间 2026-03-25 18:14

缺陷修复重要性 4.00 洞察度 4.00

在XPU平台添加empty_cache调用以对齐CUDA内存分析，但测量逻辑可能不正确。

建议关注此PR中未解决的逻辑问题，后续可能需要修复测量逻辑以真正对齐CUDA。对于技术管理者，值得检查是否有相关issue跟进；对于工程师，可精读review讨论以了解硬件平台内存测量差异和潜在改进点。

bugfixxpurocm

#38088 [ROCm][CI] Increase OpenAPI schema test timeouts

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-25 18:06

测试重要性 3.00 洞察度 2.00

在 ROCm 平台上将 OpenAPI 模式测试超时增加三倍。

此 PR 逻辑简单，适用于快速了解 ROCm 测试调整；无需深度阅读，但可关注平台特定超时设置模式，作为处理异构基础设施的参考。

rocmtestci

#37143 [XPU] support MLA model on Intel GPU

原始 PR · 作者 jikunshang · 合并时间 2026-03-25 17:43

功能重要性 6.00 洞察度 5.00

在Intel GPU（XPU）上启用MLA模型支持，优化attention后端。

建议重点关注`forward_xpu`方法的实现问题，并查看相关讨论以了解潜在风险。此PR涉及跨平台支持，值得精读以理解MLA在XPU上的集成方式和设计权衡。

xpufeaturequantization

#36702 [ROCm] Attention selector reordering

原始 PR · 作者 gshtras · 合并时间 2026-03-25 17:42

重构重要性 6.00 洞察度 6.00

重新排序ROCm attention后端优先级，将ROCM_ATTN设为最高优先级，移除环境变量VLLM_ROCM_CUSTOM_PAGED_ATTN。

建议技术管理者和工程师精读此PR，重点关注`_get_backend_priorities`函数的设计决策和优先级调整，以及`sinks`支持变更的权衡。同时，留意未解决的aiter检查问题，可能需要在后续PR中处理。

rocmrefactorperformance

#37968 [Revert] Remove CUDA torch fallbacks for fp8_mqa_logits/fp8_paged_mqa_logits_torch function

原始 PR · 作者 chaunceyjiang · 合并时间 2026-03-25 14:19

重构重要性 5.00 洞察度 6.00

移除CUDA torch fallbacks，使deep_gemm成为FP8 MQA logits的硬性要求。

建议技术管理者关注此变更对部署环境的兼容性影响，工程师应精读此PR以理解硬件支持与兼容性的设计权衡，特别是review中关于deep_gemm检查的讨论，值得借鉴用于类似决策。

refactorfp8

第 255 / 270 页 · 共 2154 条

上一页 1 … 253 254 255 256 257 … 270 下一页