Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-04-21 19:59 同步状态：空闲下次计划：2026-04-21 20:59

PR 列表

已合并 859 · 已分析 859

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-23

#37834 [Test] Consolidate tool parser unit tests to tests/tool_parsers

原始 PR · 作者 bbrowning · 合并时间 2026-03-23 12:24

测试重要性 4.00 洞察度 3.00

将工具解析器单元测试移动至 tests/tool_parsers 目录，分离单元测试与集成测试。

建议工程师快速浏览此 PR 以了解测试目录结构调整，但无需深入分析代码逻辑。重点关注 test_granite4_tool_parser.py 中流式测试的潜在问题，可在后续 PR 中修复。

testrefactor

#37632 always use `embed&token_classify` for bge-m3

原始 PR · 作者 staugust · 合并时间 2026-03-23 11:10

重构重要性 5.00 洞察度 5.00

bge-m3 插件统一使用 `embed&token_classify` 任务处理所有 pooling 请求，简化代码并弃用多任务支持。

此 PR 值得精读，展示了如何在服务限制下重构插件逻辑，学习设计权衡和简化策略，对于工程师理解多任务弃用背景有价值。

refactorbugfixmodel

#37643 Fix AudioFlamingo3/MusicFlamingo HF parity and RoTE handling

原始 PR · 作者 lashahub · 合并时间 2026-03-23 10:29

功能重要性 6.00 洞察度 6.00

修复 AudioFlamingo3 和 MusicFlamingo 模型实现，对齐 Hugging Face 参考行为并支持 RoTE 处理。

建议技术管理者和工程师精读此 PR，重点关注 MusicFlamingo 独立实现的设计决策（如 RoTE 集成和 prompt 扩展机制），以及如何通过测试确保 HF 对等性。同时，关注风险分析中提及的兼容性问题，评估 transformers 版本升级计划。

modelfeaturebugfix

#37830 [MRV2] Enable PP CUDA graph test

原始 PR · 作者 WoosukKwon · 合并时间 2026-03-23 07:30

测试重要性 3.00 洞察度 2.00

启用 Model Runner V2 的 pipeline parallelism CUDA 图测试。

对于大多数工程师，此 PR 不值得精读，除非关注 CI 配置、测试策略或 Model Runner V2 的演进。管理者可关注测试启用的时机和背后的依赖 PR #35162，以了解更大功能线。

test

#35162 [Model Runner V2] Enable piecewise & full CUDA graphs for pipeline parallelism

原始 PR · 作者 ZhanqiuHu · 合并时间 2026-03-23 04:48

功能重要性 7.00 洞察度 6.00

为V2模型runner的流水线并行添加piecewise CUDA graph支持，显著提升推理性能。

此PR值得精读，特别是对于从事CUDA graph优化或流水线并行开发的工程师。关注以下设计决策： - 如何通过持久缓冲管理中间张量以支持图形重放。 - `num_reqs`调整作为临时解决方案的权衡。 - PP-aware的图形捕获实现细节，可作为处理分布式场景的范例。

performancerefactorcudagraph

#37798 [MRV2] Use FP64 for Gumbel noise

原始 PR · 作者 WoosukKwon · 合并时间 2026-03-23 03:28

性能优化重要性 6.00 洞察度 5.00

回滚 #34854 变更，使用 FP64 提高 Gumbel 噪声数值稳定性，牺牲大 batch 随机采样性能。

建议精读，特别是 tl_rand64 的实现和性能数据，以理解 Triton 内核中精度与性能的权衡，以及如何通过代码简化提升可读性。

performancerefactorbugfix

#37811 [Bigfix]fix lora test by pass padded size back to the layer

原始 PR · 作者 zyongye · 合并时间 2026-03-23 03:20

缺陷修复重要性 4.00 洞察度 3.00

修复 MXFP4 量化层中 LoRA 测试的维度暴露问题。

建议工程师关注此 PR 以了解 MXFP4 量化层中维度暴露的模式，对于处理类似量化或 LoRA 集成的开发有价值。变更简单，无需深入精读，但可作为量化模块维护的参考案例。

bugfixrocmtest

#37818 [MRV2] Skip hidden states allocation for PW CUDA graphs

原始 PR · 作者 WoosukKwon · 合并时间 2026-03-23 02:47

性能优化重要性 5.00 洞察度 3.00

跳过 PW CUDA 图的隐藏状态分配以优化内存使用。

对于从事 CUDA 图优化或 MRV2 开发的工程师，建议精读此 PR 以了解内存优化技巧。关键设计决策在于区分 PW 和 full CUDA 图的处理路径，值得借鉴。

performancecudagraph

第 103 / 108 页 · 共 859 条

上一页 1 … 101 102 103 104 105 … 108 下一页

支持 Prhub ♥