Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-13 23:51 同步状态：空闲下次计划：2026-06-14 00:51

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-20

#42976 [Bugfix][MoE] FlashInfer one-sided: workspace union across heterogeneous layers

原始 PR · 作者 tomeras91 · 合并时间 2026-05-20 02:43

缺陷修复重要性 6.99 洞察度 6.00

修复异构 MoE 层 FlashInfer 工作空间溢出

建议合并，这是一个关键 bugfix，解决真实模型部署中的崩溃问题。审查者已批准，测试可靠。

bugfixmoetest

#42994 [Docs] Fix MooncakeStoreConnector role in disaggregated example

原始 PR · 作者 Dao007forever · 合并时间 2026-05-20 02:14

文档重要性 2.53 洞察度 3.00

修复 MooncakeStoreConnector 角色配置示例错误

值得快速合并；文档修复提高了配置正确性，特别是对于使用 MooncakeStoreConnector 进行分散式推理的用户。

documentationkv-connectorv1

#42080 [feat] Add FP8 per-tensor Q scale support to Triton attention backend

原始 PR · 作者 DomBrown · 合并时间 2026-05-20 00:02

缺陷修复重要性 6.77 洞察度 6.00

修复 Triton 注意力 FP8 查询缩放错误

值得精读，特别是 Triton 内核中通过 constexpr 实现编译时降级的设计模式。对于需要扩展量化支持的开发者有参考价值。

bugfixv1attention

2026-05-19

#42540 [Misc] add humming to dependencies

原始 PR · 作者 jinzhen-lin · 合并时间 2026-05-19 23:36

基础设施重要性 6.17 洞察度 4.00

将 humming-kernels 加入 CUDA 依赖

建议阅读本 PR，特别是 humming.py 中导入策略的改动。该 PR 展示了如何逐步将外部内核库整合为正式依赖，同时维持跨平台兼容性。推荐的改进方向包括：1）为 `HummingConfig` 添加跨平台守卫；2）恢复或重写 `assert_humming_available` 以提供清晰错误信息；3）增加对非 CUDA 平台的测试覆盖。

ci/buildnvidiaquantization

#43025 [Refactor] Extract extract_types_from_schema utility from Minimax M2 tool parser

原始 PR · 作者 sfeng33 · 合并时间 2026-05-19 23:21

重构重要性 7.62 洞察度 4.00

提取共享类型提取工具函数

值得阅读，展示了重构提取共享工具的实践经验。关注点：1) 类方法转无状态函数；2) 函数签名设计；3) 排序确定性权衡。

refactortool-callingtest

#42654 [Model] Openvla support

原始 PR · 作者 yiwen101 · 合并时间 2026-05-19 23:17

功能重要性 9.00 洞察度 6.00

新增 OpenVLA 模型支持

值得精读 `openvla.py` 和 `processors/openvla.py`，理解如何处理无法直接复用 HF remote code 的模型移植。关注 `PrismaticVisionBackbone` 中 timm 模型的加载方式以及 weight loading 的适配。通过此 PR 可学习 vLLM 多模态模型的接入模式（ProcessingInfo、PromptInsertion、TensorSchema 等）。

featuremodelmulti-modality

#43043 [XPU] update xpu graph usage

原始 PR · 作者 xinyu-intel · 合并时间 2026-05-19 23:09

性能优化重要性 6.21 洞察度 5.00

XPU graph 启用与全面捕获支持

值得精读，特别是关注 XPU 平台如何逐步融入现有的 graph capture 框架。建议后续 PR 优先处理 `graph_capture` 方法的平台抽象化，并补充测试用例覆盖多 DP 场景。

xpuperformanceintel-gpu

#42347 [Perf][4/n] Eliminate various GPU<->CPU syncs

原始 PR · 作者 njhill · 合并时间 2026-05-19 22:35

性能优化重要性 7.56 洞察度 6.00

消除多处 GPU<->CPU 同步，优化多模态与推理性能

该 PR 值得所有关心推理性能的工程师精读，尤其是 `cast_overflow_tensors` 的优化决策和 `async_tensor_h2d` 的封装思路。注意 `gpu_model_runner.py` 中 `_pp_receive_prev_sampled_token_ids_to_input_batch` 的增量逻辑，后续可能与其他 PR 冲突。建议在 CI 中增加针对 PP 模式下 spec token 计数的回归测试。

performancev1multi-modality

第 104 / 312 页 · 共 2496 条

上一页 1 … 102 103 104 105 106 … 312 下一页