Prhub
← 返回仓库列表

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-04-19 02:53 同步状态:空闲 下次计划:2026-04-19 03:53

PR 列表

已合并 792 · 已分析 792
更多筛选
2026-03-25
缺陷修复 重要性 6.00 洞察度 5.00

修复ROCm平台realtime WebSocket死锁和模型验证错误处理漏洞

建议工程师精读此PR,重点关注`handle_event`方法中的错误处理改进和测试用例设计,这些是提升realtime功能健壮性的关键。同时,了解ROCm平台特定超时设置的调整策略。

缺陷修复 重要性 4.00 洞察度 4.00

在XPU平台添加empty_cache调用以对齐CUDA内存分析,但测量逻辑可能不正确。

建议关注此PR中未解决的逻辑问题,后续可能需要修复测量逻辑以真正对齐CUDA。对于技术管理者,值得检查是否有相关issue跟进;对于工程师,可精读review讨论以了解硬件平台内存测量差异和潜在改进点。

#37143 [XPU] support MLA model on Intel GPU

作者 jikunshang · 合并时间 2026-03-25 17:43

功能 重要性 6.00 洞察度 5.00

在Intel GPU(XPU)上启用MLA模型支持,优化attention后端。

建议重点关注`forward_xpu`方法的实现问题,并查看相关讨论以了解潜在风险。此PR涉及跨平台支持,值得精读以理解MLA在XPU上的集成方式和设计权衡。

#36702 [ROCm] Attention selector reordering

作者 gshtras · 合并时间 2026-03-25 17:42

重构 重要性 6.00 洞察度 6.00

重新排序ROCm attention后端优先级,将ROCM_ATTN设为最高优先级,移除环境变量VLLM_ROCM_CUSTOM_PAGED_ATTN。

建议技术管理者和工程师精读此PR,重点关注`_get_backend_priorities`函数的设计决策和优先级调整,以及`sinks`支持变更的权衡。同时,留意未解决的aiter检查问题,可能需要在后续PR中处理。

重构 重要性 5.00 洞察度 6.00

移除CUDA torch fallbacks,使deep_gemm成为FP8 MQA logits的硬性要求。

建议技术管理者关注此变更对部署环境的兼容性影响,工程师应精读此PR以理解硬件支持与兼容性的设计权衡,特别是review中关于deep_gemm检查的讨论,值得借鉴用于类似决策。

缺陷修复 重要性 3.00 洞察度 4.00

修复 ROCM_AITER_UNIFIED_ATTN 测试中块大小错误,改用动态查询后端偏好。

建议工程师精读此 PR,以学习如何将硬编码配置替换为动态查询,从而提高代码健壮性。关注 `get_preferred_block_size` 方法的使用和测试参数化设计,这对于类似测试场景有借鉴价值。

缺陷修复 重要性 5.00 洞察度 4.00

修复 OpenAI 工具调用流式响应中访问 prev_tool_call_arr 时的索引错误,避免崩溃。

建议工程师精读此 PR 以理解流式处理中工具调用的状态管理逻辑,关注 auto_tool_called 变量的引入和条件检查的调整,这有助于避免类似索引错误;同时注意 review 中提到的死代码问题,可作为代码优化参考。

参与讨论