为 ASR 基准测试添加自定义音频数据集
该 PR 是基准测试工具的重要补充,设计上考虑了向后兼容和清晰的命名,对需要自定义音频数据集的用户具有实际价值。建议阅读以了解基准测试框架扩展方式,并考虑补充单元测试。
A high-throughput and memory-efficient inference and serving engine for LLMs
为 ASR 基准测试添加自定义音频数据集
该 PR 是基准测试工具的重要补充,设计上考虑了向后兼容和清晰的命名,对需要自定义音频数据集的用户具有实际价值。建议阅读以了解基准测试框架扩展方式,并考虑补充单元测试。
修复 Gemma4 多分辨率图像并发批处理崩溃
此 PR 代码量小但设计精准,修复了一个实际的多模态并发崩溃,且审查中讨论的设计取舍(zip vs unbind)具有参考价值。建议精读 `gemma4_mm.py` 中 `Gemma4ImagePixelInputs` 的变更和 `_process_image_input` 的新迭代方式,其余文件可作为示例。
原始 PR · 作者 chaunceyjiang · 合并时间 2026-05-12 10:09
恢复 Qwen3Coder 的 required tool_choice 支持
该 PR 是快速修复回归的最佳实践,推荐合并。建议后续添加测试覆盖 `VLLM_ENFORCE_STRICT_TOOL_CALLING` 环境的 behavior。
原始 PR · 作者 pschlan-amd · 合并时间 2026-05-12 07:11
添加 VLLM_USE_SPINLOOP_EXT 优化忙轮询功耗
该 PR 展示了使用硬件指令优化 Python 忙轮询的完整模式,尤其适合对功耗敏感的高密度部署。但鉴于 #28053 已大幅减少忙等场景,且存在 ABI 兼容性问题尚未解决,建议暂不并入主线。感兴趣者可精读 `csrc/spinloop.cpp` 中的 CPU 特性检测逻辑和 `shm_broadcast.py` 的集成方式作为参考实现。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-12 05:55
修复 MRV2 logprob 的 int64/int32 类型不匹配
建议精读。该 PR 展示了 Triton kernel 中类型一致性的重要性,并通过跨文件协作(内核、校验、测试)系统性解决问题。尤其值得关注的是 `_fill_logprob_token_ids_kernel` 中 `if/else` 分支的类型对齐技巧。
消除多路径 GPU-CPU 同步,提升推理性能
值得精读。该 PR 展示了如何通过 profiling 识别隐式同步并给出消除模式,对理解 GPU 异步编程有参考价值。
修复 DSv4 Marlin 缺少 clamp_limit 参数
该 PR 修复了关键 bug,推荐合并。同时建议后续补全 LoRA 路径的 `clamp_limit` 支持。
将 Speech-to-Text 测试独立并新增 CI 步骤
推荐作为测试基础设施清理的参考范例:测试目录与源码目录保持一致的模块化模式、CI 步骤拆分时的镜像硬件和 ignore 路径需要仔细检查、flaky test 的临时缓解方案应有后续追踪。
参与讨论