Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-13 22:49 同步状态:空闲 下次计划:2026-06-13 23:49

PR 列表

更多筛选
2026-05-20
2026-05-19

#42540 [Misc] add humming to dependencies

原始 PR · 作者 jinzhen-lin · 合并时间 2026-05-19 23:36

基础设施 重要性 6.17 洞察度 4.00

将 humming-kernels 加入 CUDA 依赖

建议阅读本 PR,特别是 humming.py 中导入策略的改动。该 PR 展示了如何逐步将外部内核库整合为正式依赖,同时维持跨平台兼容性。推荐的改进方向包括:1)为 `HummingConfig` 添加跨平台守卫;2)恢复或重写 `assert_humming_available` 以提供清晰错误信息;3)增加对非 CUDA 平台的测试覆盖。

#42654 [Model] Openvla support

原始 PR · 作者 yiwen101 · 合并时间 2026-05-19 23:17

功能 重要性 9.00 洞察度 6.00

新增 OpenVLA 模型支持

值得精读 `openvla.py` 和 `processors/openvla.py`,理解如何处理无法直接复用 HF remote code 的模型移植。关注 `PrismaticVisionBackbone` 中 timm 模型的加载方式以及 weight loading 的适配。通过此 PR 可学习 vLLM 多模态模型的接入模式(ProcessingInfo、PromptInsertion、TensorSchema 等)。

#43043 [XPU] update xpu graph usage

原始 PR · 作者 xinyu-intel · 合并时间 2026-05-19 23:09

性能优化 重要性 6.21 洞察度 5.00

XPU graph 启用与全面捕获支持

值得精读,特别是关注 XPU 平台如何逐步融入现有的 graph capture 框架。建议后续 PR 优先处理 `graph_capture` 方法的平台抽象化,并补充测试用例覆盖多 DP 场景。

#42347 [Perf][4/n] Eliminate various GPU<->CPU syncs

原始 PR · 作者 njhill · 合并时间 2026-05-19 22:35

性能优化 重要性 7.56 洞察度 6.00

消除多处 GPU<->CPU 同步,优化多模态与推理性能

该 PR 值得所有关心推理性能的工程师精读,尤其是 `cast_overflow_tensors` 的优化决策和 `async_tensor_h2d` 的封装思路。注意 `gpu_model_runner.py` 中 `_pp_receive_prev_sampled_token_ids_to_input_batch` 的增量逻辑,后续可能与其他 PR 冲突。建议在 CI 中增加针对 PP 模式下 spec token 计数的回归测试。

参与讨论