Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-12
功能 重要性 7.13 洞察度 4.00

为 ASR 基准测试添加自定义音频数据集

该 PR 是基准测试工具的重要补充,设计上考虑了向后兼容和清晰的命名,对需要自定义音频数据集的用户具有实际价值。建议阅读以了解基准测试框架扩展方式,并考虑补充单元测试。

缺陷修复 重要性 6.54 洞察度 6.00

修复 Gemma4 多分辨率图像并发批处理崩溃

此 PR 代码量小但设计精准,修复了一个实际的多模态并发崩溃,且审查中讨论的设计取舍(zip vs unbind)具有参考价值。建议精读 `gemma4_mm.py` 中 `Gemma4ImagePixelInputs` 的变更和 `_process_image_input` 的新迭代方式,其余文件可作为示例。

功能 重要性 7.34 洞察度 6.00

添加 VLLM_USE_SPINLOOP_EXT 优化忙轮询功耗

该 PR 展示了使用硬件指令优化 Python 忙轮询的完整模式,尤其适合对功耗敏感的高密度部署。但鉴于 #28053 已大幅减少忙等场景,且存在 ABI 兼容性问题尚未解决,建议暂不并入主线。感兴趣者可精读 `csrc/spinloop.cpp` 中的 CPU 特性检测逻辑和 `shm_broadcast.py` 的集成方式作为参考实现。

缺陷修复 重要性 7.16 洞察度 6.00

修复 MRV2 logprob 的 int64/int32 类型不匹配

建议精读。该 PR 展示了 Triton kernel 中类型一致性的重要性,并通过跨文件协作(内核、校验、测试)系统性解决问题。尤其值得关注的是 `_fill_logprob_token_ids_kernel` 中 `if/else` 分支的类型对齐技巧。

#41429 [Perf][1/n] Eliminate various GPU<->CPU syncs

原始 PR · 作者 njhill · 合并时间 2026-05-12 04:36

性能优化 重要性 6.83 洞察度 6.00

消除多路径 GPU-CPU 同步,提升推理性能

值得精读。该 PR 展示了如何通过 profiling 识别隐式同步并给出消除模式,对理解 GPU 异步编程有参考价值。

#42274 [CI] Consolidate Speech to Text tests

原始 PR · 作者 noooop · 合并时间 2026-05-12 03:50

基础设施 重要性 6.50 洞察度 3.00

将 Speech-to-Text 测试独立并新增 CI 步骤

推荐作为测试基础设施清理的参考范例:测试目录与源码目录保持一致的模块化模式、CI 步骤拆分时的镜像硬件和 ignore 路径需要仔细检查、flaky test 的临时缓解方案应有后续追踪。

参与讨论