Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-05-31 00:21 同步状态:空闲 下次计划:2026-05-31 01:21
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-04-29
缺陷修复 重要性 4.69 洞察度 4.00

修复 moriio 连接器测试的请求 URL 格式

此 PR 为纯粹的测试兼容性修复,变更清晰直接,值得快速合入以确保 CI 健康。可精读的亮点在于通过调整 request_id 构造时机,避免了调度器内部缓存不一致的潜在问题。

#41061 [DSV4] Enable Multi-stream for Pre-Attn GEMM

原始 PR · 作者 zyongye · 合并时间 2026-04-29 00:08

性能优化 重要性 8.62 洞察度 6.00

DeepSeek V4 pre-attn GEMM 多流并行优化

对于优化 DeepSeek V4 模型推理性能的团队,此 PR 提供了显著的 prefill 加速,值得精读其实现模式和同步设计。代码引入了新的 execute_in_parallel 工具,可在其他场景复用。建议后续添加单元测试覆盖多流路径,并在 PyTorch 2.12 就绪后考虑简化实现。

2026-04-28
性能优化 重要性 6.08 洞察度 4.00

为 gpt-oss 120b 添加 H100 调优的 Triton fused MoE 配置

建议合并。该 PR 安全、聚焦,通过简单配置文件实现了可量化的性能提升。值得关注的是 vllm 的配置加载机制如何自动应用此类文件,后续可推广到其他模型和 GPU。

缺陷修复 重要性 5.51 洞察度 5.00

修复Granite4Vision编译模式下deepstack缓存区导致解码性能下降

此 PR 是一行关键修复,值得所有使用 Granite4Vision 模型的用户关注。它也是说明 torch.compile 下缓冲区形状影响编译器优化的重要案例,对理解 vLLM 编译管线的性能调优有参考价值。

#40927 Bugfix: fix SpecBench sample argument error

原始 PR · 作者 izhuhaoran · 合并时间 2026-04-28 15:33

缺陷修复 重要性 4.20 洞察度 2.00

修复 SpecBench 中缺失 self 参数的错误

值得合并的紧急修复。审查者可通过直接运行指定命令快速验证。建议后续为该基准数据集类添加基础的单元测试。

#40995 [Examples] Resettle features examples.

原始 PR · 作者 noooop · 合并时间 2026-04-28 15:33

重构 重要性 8.10 洞察度 5.00

按功能特性重组 examples 目录,迁移 50+ 示例文件并更新引用

该 PR 值得关注其目录设计思路,对于仓库结构优化有参考价值。虽然逻辑简单,但涉及大量文件,审查时应利用自动化工具检查引用完整性。后续添加新示例应直接放入对应 feature 子目录。

参与讨论