Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-28

#43469 [Rust Frontend] Introduce mock engine for benchmark baseline

原始 PR · 作者 BugenZhao · 合并时间 2026-05-28 09:40

功能重要性 9.00 洞察度 6.00

为 Rust 前端引入轻量级 mock engine 基准测试

值得所有 Rust 前端开发者精读。其架构设计（actor 模式分离 IO 与状态、ZMQ 多 socket 管理、优雅关闭处理）是 vLLM Rust 前端通信框架的缩影。`utility_response` 的实现简洁地展示了如何处理多样化的引擎控制信令。新引入的集成测试亦可作为编写 protocol 级测试的参考样板。

featurefrontendperformance

#38831 [ModelRunnerV2][Hybrid model] Support kernel block size in hybrid model

原始 PR · 作者 MengqingCao · 合并时间 2026-05-28 08:55

功能重要性 7.12 洞察度 6.00

支持 ModelRunnerV2 混合模型的 kernel block size

值得精读。重点关注 `init_attn_backend` 的重构思路（分离 group 发现与 cg support）以及 `BlockTables` 中 `kernel_block_sizes` 的集成方式。设计决策（generator vs list、numpy vs list 回退）的权衡过程也值得借鉴。后续 PR 将基于此继续完善混合模型支持。

v1featurerefactor

#43599 [Bugfix][Kernel] TRTLLM NVFP4 MoE chunking

原始 PR · 作者 amitz-nv · 合并时间 2026-05-28 08:36

缺陷修复重要性 7.81 洞察度 6.00

修复 TRTLLM NVFP4 MoE 内核大批量 token 下的 CUDA grid 溢出

建议阅读 `trtllm_nvfp4_moe.py` 中的 chunking 实现，特别是 `_calc_max_supported_tokens` 的公式推导，它展示了如何根据 CUDA grid 限制逆向计算安全 token 数。此外，设计上选择仅在 TRTLLM NVFP4 内核启用 chunking 并在其他实现中移除未使用的 `supports_chunking`，体现了清晰的职责分离。此 PR 的测试方法也值得参考：通过对比极大数据配置下的运行和精度来验证修复。

bugfixnvidiakernel

#43740 Add @AndreasKaratzas to CODEOWNERS

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-05-28 07:14

基础设施重要性 3.11 洞察度 1.00

将 AndreasKaratzas 加入 CODEOWNERS

可直接合入，无需精读。这是一个标准的管理操作，体现了社区对贡献者的认可。

ci/buildinfra

#43617 Fix Qwen3-VL and Qwen3-omni-thinker accuracy degradation from deepstack inputs under torch.compile

原始 PR · 作者 andakai · 合并时间 2026-05-28 06:34

缺陷修复重要性 7.43 洞察度 8.00

修复 Qwen3-VL/Omni 在 torch.compile 下的精度退化

该 PR 值得精读，因为它揭示了一个常见的 torch.compile 陷阱：profile 阶段与 serving 阶段的输入结构不一致会导致编译图特化错误。设计上通过固定返回 tensor 而非 None 来保持图结构稳定的模式值得借鉴。合并前建议考虑的 device/dtype 问题可在后续 PR 中加固。

bugfixcompilationqwen

#43733 [Bugfix][DFlash]allocate the proper number of lookahead slots

原始 PR · 作者 benchislett · 合并时间 2026-05-28 05:45

缺陷修复重要性 6.05 洞察度 5.00

修复DFlash前瞻槽位分配以解决崩溃

此PR虽然改动量小，但涉及投机解码与调度器交互的关键逻辑，值得精读。特别是`effective_lookahead_tokens`的条件演进和DFlash特殊需求的论证，可作为类似bug修复的参考。

bugfixv1speculative-decoding

#43794 Validate against some config fields being set to 0

原始 PR · 作者 hmellor · 合并时间 2026-05-28 05:14

缺陷修复重要性 6.57 洞察度 5.00

修复 block_size、hash_block_size、max_model_len 等配置项可能被设为 0 的问题

值得精读。这是一个教科书式的防御性编程 PR：利用 Pydantic 字段约束（`gt=0`）在配置入口处拒绝非法值，而不是依赖下游运行时检查。`_skip_none_validation` 的 wrap 验证器使用模式是处理可选配置字段的推荐方式，值得在代码库中推广。建议其他配置字段做类似稽核。

bugfixcleanupinfra

#43785 Remove Transformers forward/backward compatibility tests

原始 PR · 作者 hmellor · 合并时间 2026-05-28 03:46

基础设施重要性 4.17 洞察度 2.00

移除 Transformers 兼容性 CI 测试

该 PR 是常规的 CI 清理，建议合入。关注后续 v0.24 中完全移除 Transformers v4 支持的相关 PR。

ci/buildinfracleanup

第 32 / 269 页 · 共 2148 条

上一页 1 … 30 31 32 33 34 … 269 下一页