Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 00:21 同步状态：空闲下次计划：2026-05-31 01:21

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-29

#41076 [CI][AMD][BugFix] Update request URL in test_moriio_connector to match vllm-router compatibility changes

原始 PR · 作者 rasmith · 合并时间 2026-04-29 02:14

缺陷修复重要性 4.69 洞察度 4.00

修复 moriio 连接器测试的请求 URL 格式

此 PR 为纯粹的测试兼容性修复，变更清晰直接，值得快速合入以确保 CI 健康。可精读的亮点在于通过调整 request_id 构造时机，避免了调度器内部缓存不一致的潜在问题。

bugfixtestkv-connector

#41134 Defer flashinfer cubin download to avoid ~2.5 GB (decompressed) layer duplication

原始 PR · 作者 benoittgt · 合并时间 2026-04-29 01:27

性能优化重要性 3.99 洞察度 4.00

延迟 cubin 下载，减少 Docker 镜像层重复

值得立即合并。此优化成本极低（仅修改 Dockerfile），收益明确（减少 2.5 GB 镜像体积），且不影响功能。可作为 Docker 镜像优化系列的开始。

ci/buildperformance

#41061 [DSV4] Enable Multi-stream for Pre-Attn GEMM

原始 PR · 作者 zyongye · 合并时间 2026-04-29 00:08

性能优化重要性 8.62 洞察度 6.00

DeepSeek V4 pre-attn GEMM 多流并行优化

对于优化 DeepSeek V4 模型推理性能的团队，此 PR 提供了显著的 prefill 加速，值得精读其实现模式和同步设计。代码引入了新的 execute_in_parallel 工具，可在其他场景复用。建议后续添加单元测试覆盖多流路径，并在 PyTorch 2.12 就绪后考虑简化实现。

deepseekperformanceattention

2026-04-28

#39904 Add tuned triton fused_moe configs on H100 for gpt-oss

原始 PR · 作者 zhangxin81 · 合并时间 2026-04-28 18:38

性能优化重要性 6.08 洞察度 4.00

为 gpt-oss 120b 添加 H100 调优的 Triton fused MoE 配置

建议合并。该 PR 安全、聚焦，通过简单配置文件实现了可量化的性能提升。值得关注的是 vllm 的配置加载机制如何自动应用此类文件，后续可推广到其他模型和 GPU。

performancegpt-ossnvidia

#41098 [Bugfix] Exclude numa_bind fields from ParallelConfig DP hash

原始 PR · 作者 esmeetu · 合并时间 2026-04-28 15:52

缺陷修复重要性 5.11 洞察度 3.00

修复DP哈希因NUMA自动检测不一致导致的配置检查失败

值得快速合入，修复明确且安全。reviewer 建议补充触发条件到 PR 描述，已采纳。无需深层代码审查。

bugfixcleanup

#40917 [Bugfix][Granite4Vision] Fix deepstack buffer causing decode slowdown in compiled mode

原始 PR · 作者 artem-spector · 合并时间 2026-04-28 15:43

缺陷修复重要性 5.51 洞察度 5.00

修复Granite4Vision编译模式下deepstack缓存区导致解码性能下降

此 PR 是一行关键修复，值得所有使用 Granite4Vision 模型的用户关注。它也是说明 torch.compile 下缓冲区形状影响编译器优化的重要案例，对理解 vLLM 编译管线的性能调优有参考价值。

bugfixmodelperformance

#40927 Bugfix: fix SpecBench sample argument error

原始 PR · 作者 izhuhaoran · 合并时间 2026-04-28 15:33

缺陷修复重要性 4.20 洞察度 2.00

修复 SpecBench 中缺失 self 参数的错误

值得合并的紧急修复。审查者可通过直接运行指定命令快速验证。建议后续为该基准数据集类添加基础的单元测试。

bugfixperformance

#40995 [Examples] Resettle features examples.

原始 PR · 作者 noooop · 合并时间 2026-04-28 15:33

重构重要性 8.10 洞察度 5.00

按功能特性重组 examples 目录，迁移 50+ 示例文件并更新引用

该 PR 值得关注其目录设计思路，对于仓库结构优化有参考价值。虽然逻辑简单，但涉及大量文件，审查时应利用自动化工具检查引用完整性。后续添加新示例应直接放入对应 feature 子目录。

refactordocumentationcleanup

第 123 / 253 页 · 共 2017 条

上一页 1 … 121 122 123 124 125 … 253 下一页