Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-05-31 06:35 同步状态:空闲 下次计划:2026-05-31 07:35

PR 列表

更多筛选
2026-03-25
缺陷修复 重要性 5.00 洞察度 3.00

修复Eagle3中quantized lm_head权重加载失败bug,传递quant_config到ParallelLMHead。

对于涉及Eagle3或量化开发的工程师,建议精读`llama_eagle3.py`中的quant_config传递逻辑,关注设计决策;对于一般用户,可快速浏览以了解修复内容。

#38095 Fix offline mode test for Transformers v5

原始 PR · 作者 hmellor · 合并时间 2026-03-25 19:39

测试 重要性 4.00 洞察度 3.00

修复Transformers v5下offline mode测试的模块别名处理问题。

建议快速浏览此PR以了解如何适配Transformers v5的模块别名变化,对于处理类似测试场景有参考价值。无需深度精读,除非关注测试基础设施。

缺陷修复 重要性 4.00 洞察度 5.00

为 ROCm 平台添加 ROCM_EXTRA_ARGS 到两个测试文件并早期验证 pooling params,修复 flaky 的嵌入测试。

建议关注测试设计的权衡,尤其是 `ROCM_EXTRA_ARGS` 的使用是否应更明确标注或跳过相关测试。同时,异常处理更改值得了解,可参考相关 issue 以跟踪批不变性问题进展。

缺陷修复 重要性 6.00 洞察度 5.00

修复ROCm平台realtime WebSocket死锁和模型验证错误处理漏洞

建议工程师精读此PR,重点关注`handle_event`方法中的错误处理改进和测试用例设计,这些是提升realtime功能健壮性的关键。同时,了解ROCm平台特定超时设置的调整策略。

缺陷修复 重要性 4.00 洞察度 4.00

在XPU平台添加empty_cache调用以对齐CUDA内存分析,但测量逻辑可能不正确。

建议关注此PR中未解决的逻辑问题,后续可能需要修复测量逻辑以真正对齐CUDA。对于技术管理者,值得检查是否有相关issue跟进;对于工程师,可精读review讨论以了解硬件平台内存测量差异和潜在改进点。

测试 重要性 3.00 洞察度 2.00

在 ROCm 平台上将 OpenAPI 模式测试超时增加三倍。

此 PR 逻辑简单,适用于快速了解 ROCm 测试调整;无需深度阅读,但可关注平台特定超时设置模式,作为处理异构基础设施的参考。

#37143 [XPU] support MLA model on Intel GPU

原始 PR · 作者 jikunshang · 合并时间 2026-03-25 17:43

功能 重要性 6.00 洞察度 5.00

在Intel GPU(XPU)上启用MLA模型支持,优化attention后端。

建议重点关注`forward_xpu`方法的实现问题,并查看相关讨论以了解潜在风险。此PR涉及跨平台支持,值得精读以理解MLA在XPU上的集成方式和设计权衡。

#36702 [ROCm] Attention selector reordering

原始 PR · 作者 gshtras · 合并时间 2026-03-25 17:42

重构 重要性 6.00 洞察度 6.00

重新排序ROCm attention后端优先级,将ROCM_ATTN设为最高优先级,移除环境变量VLLM_ROCM_CUSTOM_PAGED_ATTN。

建议技术管理者和工程师精读此PR,重点关注`_get_backend_priorities`函数的设计决策和优先级调整,以及`sinks`支持变更的权衡。同时,留意未解决的aiter检查问题,可能需要在后续PR中处理。

参与讨论