Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 06:35 同步状态：空闲下次计划：2026-05-31 07:35

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-25

#37280 [Bugfix] Pass drafter quant_config to ParallelLMHead in Eagle3

原始 PR · 作者 mgehre-amd · 合并时间 2026-03-25 19:42

缺陷修复重要性 5.00 洞察度 3.00

修复Eagle3中quantized lm_head权重加载失败bug，传递quant_config到ParallelLMHead。

对于涉及Eagle3或量化开发的工程师，建议精读`llama_eagle3.py`中的quant_config传递逻辑，关注设计决策；对于一般用户，可快速浏览以了解修复内容。

bugfixquantizationspeculative-decoding

#38095 Fix offline mode test for Transformers v5

原始 PR · 作者 hmellor · 合并时间 2026-03-25 19:39

测试重要性 4.00 洞察度 3.00

修复Transformers v5下offline mode测试的模块别名处理问题。

建议快速浏览此PR以了解如何适配Transformers v5的模块别名变化，对于处理类似测试场景有参考价值。无需深度精读，除非关注测试基础设施。

bugfixtestrefactor

#37616 [ROCm][CI] Fix flaky Cohere/OpenAI embedding parity test

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-25 18:55

缺陷修复重要性 4.00 洞察度 5.00

为 ROCm 平台添加 ROCM_EXTRA_ARGS 到两个测试文件并早期验证 pooling params，修复 flaky 的嵌入测试。

建议关注测试设计的权衡，尤其是 `ROCM_EXTRA_ARGS` 的使用是否应更明确标注或跳过相关测试。同时，异常处理更改值得了解，可参考相关 issue 以跟踪批不变性问题进展。

rocmtestbugfix

#37483 [CI] Fix realtime WebSocket timeout deadlock and unhandled model validation errors

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-25 18:24

缺陷修复重要性 6.00 洞察度 5.00

修复ROCm平台realtime WebSocket死锁和模型验证错误处理漏洞

建议工程师精读此PR，重点关注`handle_event`方法中的错误处理改进和测试用例设计，这些是提升realtime功能健壮性的关键。同时，了解ROCm平台特定超时设置的调整策略。

bugfixrocmfrontend

#37029 [Hardware][XPU] Align memory usage with cuda on xpu

原始 PR · 作者 jikunshang · 合并时间 2026-03-25 18:14

缺陷修复重要性 4.00 洞察度 4.00

在XPU平台添加empty_cache调用以对齐CUDA内存分析，但测量逻辑可能不正确。

建议关注此PR中未解决的逻辑问题，后续可能需要修复测量逻辑以真正对齐CUDA。对于技术管理者，值得检查是否有相关issue跟进；对于工程师，可精读review讨论以了解硬件平台内存测量差异和潜在改进点。

bugfixxpurocm

#38088 [ROCm][CI] Increase OpenAPI schema test timeouts

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-25 18:06

测试重要性 3.00 洞察度 2.00

在 ROCm 平台上将 OpenAPI 模式测试超时增加三倍。

此 PR 逻辑简单，适用于快速了解 ROCm 测试调整；无需深度阅读，但可关注平台特定超时设置模式，作为处理异构基础设施的参考。

rocmtestci

#37143 [XPU] support MLA model on Intel GPU

原始 PR · 作者 jikunshang · 合并时间 2026-03-25 17:43

功能重要性 6.00 洞察度 5.00

在Intel GPU（XPU）上启用MLA模型支持，优化attention后端。

建议重点关注`forward_xpu`方法的实现问题，并查看相关讨论以了解潜在风险。此PR涉及跨平台支持，值得精读以理解MLA在XPU上的集成方式和设计权衡。

xpufeaturequantization

#36702 [ROCm] Attention selector reordering

原始 PR · 作者 gshtras · 合并时间 2026-03-25 17:42

重构重要性 6.00 洞察度 6.00

重新排序ROCm attention后端优先级，将ROCM_ATTN设为最高优先级，移除环境变量VLLM_ROCM_CUSTOM_PAGED_ATTN。

建议技术管理者和工程师精读此PR，重点关注`_get_backend_priorities`函数的设计决策和优先级调整，以及`sinks`支持变更的权衡。同时，留意未解决的aiter检查问题，可能需要在后续PR中处理。

rocmrefactorperformance

第 238 / 253 页 · 共 2019 条

上一页 1 … 236 237 238 239 240 … 253 下一页