Prhub
← 返回仓库列表

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-04-18 21:16 同步状态:空闲 下次计划:2026-04-18 22:16

PR 列表

已合并 790 · 已分析 790
更多筛选
2026-03-23

#35963 [Feature] ViT Full CUDA Graph

作者 b-mu · 合并时间 2026-03-23 13:01

功能 重要性 7.00 洞察度 8.00

为ViT编码器添加完整CUDA图支持,减少内核启动开销,提升多模态推理性能。

该PR值得精读,特别是`SupportsEncoderCudaGraph`协议的设计,展示了如何抽象模型特定逻辑以实现通用优化。关注`EncoderCudaGraphManager`中的贪婪装箱算法(减少图数量)和数据并行支持(负载均衡),这些设计决策对性能优化有重要借鉴意义。

#37816 [CI/Build][LoRA] Update Qwen35 LoRA testing

作者 jeejeelee · 合并时间 2026-03-23 12:55

测试 重要性 4.00 洞察度 2.00

更新 Qwen3.5 LoRA 测试,修复文件名 typo 并扩展视觉语言测试覆盖。

该 PR 值得精读,尤其关注测试设计决策,如多模态测试的集成方式和夹具重构。建议工程师在合并后验证 fully_sharded_loras 测试覆盖情况,以确保 LoRA 功能完整性。

测试 重要性 4.00 洞察度 3.00

将工具解析器单元测试移动至 tests/tool_parsers 目录,分离单元测试与集成测试。

建议工程师快速浏览此 PR 以了解测试目录结构调整,但无需深入分析代码逻辑。重点关注 test_granite4_tool_parser.py 中流式测试的潜在问题,可在后续 PR 中修复。

#37632 always use `embed&token_classify` for bge-m3

作者 staugust · 合并时间 2026-03-23 11:10

重构 重要性 5.00 洞察度 5.00

bge-m3 插件统一使用 `embed&token_classify` 任务处理所有 pooling 请求,简化代码并弃用多任务支持。

此 PR 值得精读,展示了如何在服务限制下重构插件逻辑,学习设计权衡和简化策略,对于工程师理解多任务弃用背景有价值。

功能 重要性 6.00 洞察度 6.00

修复 AudioFlamingo3 和 MusicFlamingo 模型实现,对齐 Hugging Face 参考行为并支持 RoTE 处理。

建议技术管理者和工程师精读此 PR,重点关注 MusicFlamingo 独立实现的设计决策(如 RoTE 集成和 prompt 扩展机制),以及如何通过测试确保 HF 对等性。同时,关注风险分析中提及的兼容性问题,评估 transformers 版本升级计划。

#37830 [MRV2] Enable PP CUDA graph test

作者 WoosukKwon · 合并时间 2026-03-23 07:30

测试 重要性 3.00 洞察度 2.00

启用 Model Runner V2 的 pipeline parallelism CUDA 图测试。

对于大多数工程师,此 PR 不值得精读,除非关注 CI 配置、测试策略或 Model Runner V2 的演进。管理者可关注测试启用的时机和背后的依赖 PR #35162,以了解更大功能线。

功能 重要性 7.00 洞察度 6.00

为V2模型runner的流水线并行添加piecewise CUDA graph支持,显著提升推理性能。

此PR值得精读,特别是对于从事CUDA graph优化或流水线并行开发的工程师。关注以下设计决策: - 如何通过持久缓冲管理中间张量以支持图形重放。 - `num_reqs`调整作为临时解决方案的权衡。 - PP-aware的图形捕获实现细节,可作为处理分布式场景的范例。

参与讨论