修复 moriio 连接器测试的请求 URL 格式
此 PR 为纯粹的测试兼容性修复,变更清晰直接,值得快速合入以确保 CI 健康。可精读的亮点在于通过调整 request_id 构造时机,避免了调度器内部缓存不一致的潜在问题。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复 moriio 连接器测试的请求 URL 格式
此 PR 为纯粹的测试兼容性修复,变更清晰直接,值得快速合入以确保 CI 健康。可精读的亮点在于通过调整 request_id 构造时机,避免了调度器内部缓存不一致的潜在问题。
延迟 cubin 下载,减少 Docker 镜像层重复
值得立即合并。此优化成本极低(仅修改 Dockerfile),收益明确(减少 2.5 GB 镜像体积),且不影响功能。可作为 Docker 镜像优化系列的开始。
DeepSeek V4 pre-attn GEMM 多流并行优化
对于优化 DeepSeek V4 模型推理性能的团队,此 PR 提供了显著的 prefill 加速,值得精读其实现模式和同步设计。代码引入了新的 execute_in_parallel 工具,可在其他场景复用。建议后续添加单元测试覆盖多流路径,并在 PyTorch 2.12 就绪后考虑简化实现。
原始 PR · 作者 zhangxin81 · 合并时间 2026-04-28 18:38
为 gpt-oss 120b 添加 H100 调优的 Triton fused MoE 配置
建议合并。该 PR 安全、聚焦,通过简单配置文件实现了可量化的性能提升。值得关注的是 vllm 的配置加载机制如何自动应用此类文件,后续可推广到其他模型和 GPU。
修复DP哈希因NUMA自动检测不一致导致的配置检查失败
值得快速合入,修复明确且安全。reviewer 建议补充触发条件到 PR 描述,已采纳。无需深层代码审查。
原始 PR · 作者 artem-spector · 合并时间 2026-04-28 15:43
修复Granite4Vision编译模式下deepstack缓存区导致解码性能下降
此 PR 是一行关键修复,值得所有使用 Granite4Vision 模型的用户关注。它也是说明 torch.compile 下缓冲区形状影响编译器优化的重要案例,对理解 vLLM 编译管线的性能调优有参考价值。
原始 PR · 作者 izhuhaoran · 合并时间 2026-04-28 15:33
修复 SpecBench 中缺失 self 参数的错误
值得合并的紧急修复。审查者可通过直接运行指定命令快速验证。建议后续为该基准数据集类添加基础的单元测试。
按功能特性重组 examples 目录,迁移 50+ 示例文件并更新引用
该 PR 值得关注其目录设计思路,对于仓库结构优化有参考价值。虽然逻辑简单,但涉及大量文件,审查时应利用自动化工具检查引用完整性。后续添加新示例应直接放入对应 feature 子目录。
参与讨论