Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-13 19:39 同步状态：空闲下次计划：2026-06-13 20:39

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-04

#44497 [CI] Reverted gitignore changes

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-06-04 15:37

缺陷修复重要性 3.04 洞察度 2.00

回退 dockerignore 改动并修复 ROCm SCCACHE 崩溃

该 PR 为应急修复，技术价值有限但维护了 CI/CD 稳定性。建议阅读以了解 sccache 环境变量空值导致崩溃的潜在陷阱，以及 Docker 构建中 .dockerignore 与 git 工作树检查的冲突问题。

ci/buildrocmbugfix

#44479 [Frontend] Consolidate online serving utils.

原始 PR · 作者 noooop · 合并时间 2026-06-04 14:49

重构重要性 8.80 洞察度 4.00

统一 online serving 工具模块至 vllm/entrypoints/serve/utils

建议在合并前重点关注标准库 ssl 覆盖问题，确认是否需保留标准 ssl 导入或调整自定义 ssl 模块以兼容常量。同时建议通过 CI 运行所有 entrypoints 相关测试，确保导入路径正确性。整体上，这是一次有益的重构，合并后应跟进任何出现的导入错误。

refactorfrontendv1

#42129 [Inductor] Fast-path Inductor fallback for vllm::/vllm_aiter:: custom ops

原始 PR · 作者 okorzh-amd · 合并时间 2026-06-04 13:03

性能优化重要性 8.42 洞察度 6.00

为 vllm 自定义 op 添加 Inductor 快速回退路径，防止编译挂起

此 PR 值得精读，尤其是对使用 `torch.compile` 的团队。设计模式（代理类包装全局 set）是低侵入性修补的范例。建议在后续 PyTorch 升级后测试兼容性。

performancecompilationinfra

#44463 [CI] Resolve release V2 docker build after ROCm CI wheels change

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-06-04 12:35

缺陷修复重要性 3.40 洞察度 3.00

修复 release docker 构建因为 dirty repo 失败

该 PR 值得快速合并，修复了明确的 CI 阻塞问题。后续可考虑更通用方案（如统一在容器内重新 checkout 而非手动恢复特定文件列表），但当前方案已足够。

ci/buildrocminfra

#41633 [EPLB] Nixl communicator optimization. Zero-copy transfers

原始 PR · 作者 ilmarkov · 合并时间 2026-06-04 11:40

性能优化重要性 8.37 洞察度 5.50

零拷贝 RDMA 优化 Nixl EPLB 通信，消除中间缓冲

值得精读。重点关注：零拷贝 RDMA 设计思路（如何避免两次复制）、weak_contiguous 的提取动机、以及 set_transfer_context 与 add_recv/execute 的时序约定。对于分布式推理开发者，这是了解 RDMA 应用和 EPLB 通信内幕的好材料。此外，观察 reviewer 提出的边界条件问题可提升代码健壮性。

performancekv-connectorrefactor

#44230 optimize the compressor 128 split cutedsl kernel

原始 PR · 作者 Jie-Fang · 合并时间 2026-06-04 11:22

性能优化重要性 7.49 洞察度 5.00

优化 DeepSeek V4 C128 CuTeDSL 压缩内核，加速比达 1.69x

建议精读。PR 展示了如何通过'部分专用化'平衡性能与维护成本：通过静态化已知布局参数换取 1.69x 加速，同时保留退化路径。其验证方法（字节级对比）值得借鉴。对于在 vLLM 中开发高性能内核的工程师有较好参考价值。

performancekerneldeepseek

#41471 [Refactor] Remove dead code in tests and parallel_state

原始 PR · 作者 yewentao256 · 合并时间 2026-06-04 10:32

重构重要性 6.92 洞察度 3.00

清理 parallel_state 和 Nixl 测试中的废弃代码

值得快速回顾，可作为清理废弃代码的参考示例。重点关注 `parallel_state.py` 中删除的函数，理解它们的历史用途（speculative decoding draft worker 切换 TP group），确认删除前已确保无引用。

refactorcleanupv1

#41759 [MM][Perf][CG] Support ViT full CUDA graph for InternVL

原始 PR · 作者 oguzhankir · 合并时间 2026-06-04 10:24

功能重要性 8.28 洞察度 6.00

为 InternVL 系列添加 ViT CUDA 图支持

值得精读。PR 展示了如何为 ViT 编码器集成 CUDA 图，包括协议方法实现、测试和文档配套。特别关注接口适配 #41234 的过程，以及如何解决 MIG 环境兼容性问题。

cudagraphmulti-modalityperformance

第 43 / 312 页 · 共 2496 条

上一页 1 … 41 42 43 44 45 … 312 下一页