Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-14 19:12 同步状态：空闲下次计划：2026-06-14 20:12

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-31

#37841 replace cuda_device_count_stateless() to current_platform.device_count()

原始 PR · 作者 wincent8 · 合并时间 2026-03-31 22:32

重构重要性 6.00 洞察度 5.00

将CUDA特定设备计数函数统一为平台抽象接口，以支持XPU等多加速器。

建议技术管理者和工程师精读此PR，特别关注vllm/platforms/cuda.py和vllm/platforms/rocm.py中的设备计数实现，以理解平台抽象的设计模式。同时，review讨论中的设计权衡（如避免torch.accelerator依赖）值得学习，可作为跨硬件兼容性改进的参考案例。

refactortestrocm

#38594 [CI] Avoid concurrent docker pull in intel XPU CI runners to prevent rate limit issues

原始 PR · 作者 wendyliu235 · 合并时间 2026-03-31 22:23

基础设施重要性 5.00 洞察度 6.00

为Intel XPU CI runners添加docker pull锁，避免并发拉取导致的速率限制问题。

建议技术管理者和工程师精读此PR，关注锁定机制的设计决策和潜在陷阱，尤其是如何处理并发和超时场景。学习CI脚本中锁使用的最佳实践，以应用于其他类似场景。

cixpu

#38566 [Bugfix][CI] Skip flaky `test_eagle` test

原始 PR · 作者 NickLucche · 合并时间 2026-03-31 21:42

缺陷修复重要性 4.00 洞察度 3.00

通过标记测试为预期失败来跳过不稳定的Eagle DP测试以避免CI失败。

对于技术管理者，此PR是临时措施，建议关注后续解决根本原因的PR。对于工程师，如果负责Eagle或speculative decoding相关模块，值得注意此测试被跳过，以避免依赖不稳定的测试，并可参考discussion中的设计权衡。

bugfixtestci

#38631 Fix MLA runs when use_inductor_graph_partition=True

原始 PR · 作者 ElizaWszola · 合并时间 2026-03-31 21:37

缺陷修复重要性 5.00 洞察度 3.00

修复 MLA 注意力在使用 inductor 图分区时输出乱码的问题。

建议快速浏览此 PR，重点关注 unified_mla_kv_cache_update 函数的改动，以理解如何确保 torch.compile 正确捕获操作。对于处理 KV cache 或注意力机制的开发者有参考价值。

bugfixtorch.compilemodel

#38632 [CI] fix LM Eval Qwen3.5 Models (B200)

原始 PR · 作者 ZJY0516 · 合并时间 2026-03-31 21:20

缺陷修复重要性 3.00 洞察度 2.00

修复 Qwen3.5 模型在 GSM8K 评估中的 CI 失败，通过调整 max_num_seqs 参数。

该 PR 变更机械简单，无需精读；工程师可关注作为配置调整的示例，但无复杂设计决策值得深入分析。

bugfixtestci

#38596 [XPU]move testing dependencies from Dockerfile to xpu-test.in

原始 PR · 作者 1643661061leo · 合并时间 2026-03-31 20:49

基础设施重要性 4.00 洞察度 4.00

将XPU测试依赖从Dockerfile集中到xpu-test.in，优化依赖管理和构建缓存。

建议CI/基础设施工程师关注此PR，特别是依赖锁定策略和Docker缓存优化，以了解如何通过uv工具提升环境一致性。对于开发团队，值得学习标准化依赖管理的实践。

xpucirefactor

#33176 [EPLB] Add alternative communication for EPLB weight exchange

原始 PR · 作者 ilmarkov · 合并时间 2026-03-31 20:17

功能重要性 6.00 洞察度 7.00

新增EPLB权重交换通信器抽象，支持多后端以避免异步挂起。

该PR值得精读，尤其对于从事分布式通信或EPLB开发的工程师。值得关注的设计决策包括：通信器抽象模式（工厂方法create_eplb_communicator）、多后端权衡（如Gloo避免NCCL冲突但牺牲性能）、以及无状态通信需求的处理（pynccl后端）。建议结合review讨论，理解为何pynccl被保留，以及异步流管理的最佳实践。

featurerefactortest

#36742 [EPD] update EPD script arguments

原始 PR · 作者 zhenwei-intel · 合并时间 2026-03-31 20:02

功能重要性 5.00 洞察度 4.00

更新EPD示例脚本以支持平台感知和参数化服务参数。

对于涉及多平台部署或EPD功能的工程师，建议精读此PR以了解平台抽象的设计（如DEVICE_PLATFORM切换逻辑）和参数化配置的实现。关注JSON格式修复的细节，以确保类似脚本变更的正确性。

documentationkv-connectorxpu

第 277 / 314 页 · 共 2508 条

上一页 1 … 275 276 277 278 279 … 314 下一页