Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 09:45 同步状态：空闲下次计划：2026-06-04 10:45

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-15

#39337 [Model Runner v2] Oracle for model runner v2 - qwen3 dense model by default [1/N]

原始 PR · 作者 yewentao256 · 合并时间 2026-05-15 01:02

功能重要性 8.36 洞察度 6.00

引入 V2 模型运行器 Oracle，默认启用 Qwen3 密集模型

该 PR 设计清晰，经过充分 review，是 V2 模型运行器推广的关键基础设施。建议阅读 `vllm/config/vllm.py` 中的 `use_v2_model_runner` 属性和 `_get_v2_model_runner_unsupported_features` 方法，了解 Oracle 决策链。后续可关注相关 PR（#39353、#39937、#42538）以获取完整上下文。

featureqwenv1

2026-05-14

#42586 [Bugfix][Multimodal] PyAV video backend returns keyframes labeled as targets

原始 PR · 作者 WindChimeRan · 合并时间 2026-05-14 23:56

缺陷修复重要性 6.68 洞察度 5.00

修复PyAV视频后端seek后退采样错误帧

值得精读：PR展示了如何使用帧索引标记追踪解码实际输出，测试设计精巧、可复现；同时演示了处理常见视频解码问题以及复用decoder的优化手法，对多模态视频处理开发者有参考价值。

bugfixmulti-modalitytest

#38040 [Fix] Misc Fixes in ViT CUDA Graph

原始 PR · 作者 b-mu · 合并时间 2026-05-14 23:49

缺陷修复重要性 7.83 洞察度 6.00

修复ViT CUDA Graph预算计算与捕获输入分配不足等多项问题

值得精读。重点关注不变式分层验证的设计以及ceil除法的正确性考虑，对理解vLLM中CUDA Graph的预算管理机制有参考价值。

bugfixperformancev1

#42641 [Bugfix] Fix LM detection for Nemotron Parse

原始 PR · 作者 DarkLight1337 · 合并时间 2026-05-14 23:42

缺陷修复重要性 5.62 洞察度 4.00

修复 Nemotron Parse 语言模型检测失败

建议及时合并。修复简单直接，经过 CI 测试验证（PR 修复了 CI 中的失败用例）。值得关注的是其设计模式：通过统一的 `embed_input_ids` 契约方法实现语言模型自动检测，这种接口化设计降低了多模态模型的集成成本。

bugfixmulti-modalitymodel

#42062 [ROCm] Enable gluon paged MQA logits on gfx950 (MI355X)

原始 PR · 作者 frida-andersson · 合并时间 2026-05-14 23:39

缺陷修复重要性 4.27 洞察度 3.00

修复 MI355X (gfx950) 未使用 gluon 单核路径

值得快速合并。此 PR 修复了一个明显的性能回归问题，改动极小且逻辑清晰。对于关注 ROCm 性能和 MI355X 部署的团队值得精读，了解 GPU 架构分发条件的管理方式。

rocmbugfixperformance

#41626 [V1][DP][LB] Publish request counts at the start of each engine step

原始 PR · 作者 vadiklyutiy · 合并时间 2026-05-14 23:39

性能优化重要性 5.28 洞察度 5.00

提前发布 DP 请求计数减少负载不均衡

值得精读的低成本高收益优化。展示了如何通过调整发布时机来显著改善分布式负载均衡，是系统调优的范例。建议团队在后续 DP 相关 PR 中参考此模式。

performancev1scheduler

#41869 PD disagg with NIXL Connector: GDN support (Qwen3.5)

原始 PR · 作者 ZhanqiuHu · 合并时间 2026-05-14 22:33

功能重要性 8.60 洞察度 6.00

为NIXL PD分离添加GDN(准Qwen3.5)支持

值得精读，特别是 `MambaConvSplitInfo` 的泛化模式，展示了如何在保持向后兼容的同时扩展数据结构。`derive_mamba_conv_split` 中的异构 TP 推理逻辑值得参考。

v1qwenkv-connector

#39568 [RFC] Replace shared-memory routed experts with ModelRunnerOutput transfer and HTTP support

原始 PR · 作者 xhx1022 · 合并时间 2026-05-14 22:12

重构重要性 9.36 洞察度 7.00

重构 MoE 路由捕获传输层，移除共享内存，使用异步 D2H，支持 HTTP 返回。

值得精读。该 PR 设计了一套从 GPU 到 Scheduler 的完整异步数据传输管道，对 `ModelRunnerOutput` 扩展具有参考价值。特别是 pre-free capture 解决异步调度中数据竞争的手法，以及复用现有 IPC 路径实现零额外同步的设计，可推广到其他需要返传 GPU 状态的场景。但需密切关注外部 KV 块问题的后续修复。

v1moeperformance

第 78 / 269 页 · 共 2150 条

上一页 1 … 76 77 78 79 80 … 269 下一页