Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-12

#41576 Implement custom dataset class for ASR benchmarking

原始 PR · 作者 ymoslem · 合并时间 2026-05-12 12:17

功能重要性 7.13 洞察度 4.00

为 ASR 基准测试添加自定义音频数据集

该 PR 是基准测试工具的重要补充，设计上考虑了向后兼容和清晰的命名，对需要自定义音频数据集的用户具有实际价值。建议阅读以了解基准测试框架扩展方式，并考虑补充单元测试。

featuretestdocumentation

#42217 [Fix] Gemma4 Mixed-Resolution Image Co-Batching Crash

原始 PR · 作者 skyloevil · 合并时间 2026-05-12 11:13

缺陷修复重要性 6.54 洞察度 6.00

修复 Gemma4 多分辨率图像并发批处理崩溃

此 PR 代码量小但设计精准，修复了一个实际的多模态并发崩溃，且审查中讨论的设计取舍（zip vs unbind）具有参考价值。建议精读 `gemma4_mm.py` 中 `Gemma4ImagePixelInputs` 的变更和 `_process_image_input` 的新迭代方式，其余文件可作为示例。

bugfixmulti-modalitymodel

#42292 [Bugifx] [Qwen3CoderTool] Restore supports_required_and_named for required tool_choice

原始 PR · 作者 chaunceyjiang · 合并时间 2026-05-12 10:09

缺陷修复重要性 4.82 洞察度 3.00

恢复 Qwen3Coder 的 required tool_choice 支持

该 PR 是快速修复回归的最佳实践，推荐合并。建议后续添加测试覆盖 `VLLM_ENFORCE_STRICT_TOOL_CALLING` 环境的 behavior。

bugfixtool-callingqwen

#36517 Add VLLM_USE_SPINLOOP_EXT to use more efficient busy polling

原始 PR · 作者 pschlan-amd · 合并时间 2026-05-12 07:11

功能重要性 7.34 洞察度 6.00

添加 VLLM_USE_SPINLOOP_EXT 优化忙轮询功耗

该 PR 展示了使用硬件指令优化 Python 忙轮询的完整模式，尤其适合对功耗敏感的高密度部署。但鉴于 #28053 已大幅减少忙等场景，且存在 ABI 兼容性问题尚未解决，建议暂不并入主线。感兴趣者可精读 `csrc/spinloop.cpp` 中的 CPU 特性检测逻辑和 `shm_broadcast.py` 的集成方式作为参考实现。

performanceinfrakernel

#41761 [Model Runner V2] Bug fix: logprob dtype int64/int32 issue

原始 PR · 作者 yewentao256 · 合并时间 2026-05-12 05:55

缺陷修复重要性 7.16 洞察度 6.00

修复 MRV2 logprob 的 int64/int32 类型不匹配

建议精读。该 PR 展示了 Triton kernel 中类型一致性的重要性，并通过跨文件协作（内核、校验、测试）系统性解决问题。尤其值得关注的是 `_fill_logprob_token_ids_kernel` 中 `if/else` 分支的类型对齐技巧。

bugfixv1kernel

#41429 [Perf][1/n] Eliminate various GPU<->CPU syncs

原始 PR · 作者 njhill · 合并时间 2026-05-12 04:36

性能优化重要性 6.83 洞察度 6.00

消除多路径 GPU-CPU 同步，提升推理性能

值得精读。该 PR 展示了如何通过 profiling 识别隐式同步并给出消除模式，对理解 GPU 异步编程有参考价值。

performancev1cleanup

#42287 [Bugfix] Fix DSV4 swiglu_limit on marlin backend

原始 PR · 作者 jeejeelee · 合并时间 2026-05-12 04:03

缺陷修复重要性 5.78 洞察度 3.00

修复 DSv4 Marlin 缺少 clamp_limit 参数

该 PR 修复了关键 bug，推荐合并。同时建议后续补全 LoRA 路径的 `clamp_limit` 支持。

bugfixdeepseekquantization

#42274 [CI] Consolidate Speech to Text tests

原始 PR · 作者 noooop · 合并时间 2026-05-12 03:50

基础设施重要性 6.50 洞察度 3.00

将 Speech-to-Text 测试独立并新增 CI 步骤

推荐作为测试基础设施清理的参考范例：测试目录与源码目录保持一致的模块化模式、CI 步骤拆分时的镜像硬件和 ignore 路径需要仔细检查、flaky test 的临时缓解方案应有后续追踪。

ci/buildtestrefactor

第 92 / 269 页 · 共 2148 条

上一页 1 … 90 91 92 93 94 … 269 下一页