Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-13 20:41 同步状态:空闲 下次计划:2026-06-13 21:41

PR 列表

更多筛选
2026-03-23

#37830 [MRV2] Enable PP CUDA graph test

原始 PR · 作者 WoosukKwon · 合并时间 2026-03-23 07:30

测试 重要性 3.00 洞察度 2.00

启用 Model Runner V2 的 pipeline parallelism CUDA 图测试。

对于大多数工程师,此 PR 不值得精读,除非关注 CI 配置、测试策略或 Model Runner V2 的演进。管理者可关注测试启用的时机和背后的依赖 PR #35162,以了解更大功能线。

功能 重要性 7.00 洞察度 6.00

为V2模型runner的流水线并行添加piecewise CUDA graph支持,显著提升推理性能。

此PR值得精读,特别是对于从事CUDA graph优化或流水线并行开发的工程师。关注以下设计决策: - 如何通过持久缓冲管理中间张量以支持图形重放。 - `num_reqs`调整作为临时解决方案的权衡。 - PP-aware的图形捕获实现细节,可作为处理分布式场景的范例。

#37798 [MRV2] Use FP64 for Gumbel noise

原始 PR · 作者 WoosukKwon · 合并时间 2026-03-23 03:28

性能优化 重要性 6.00 洞察度 5.00

回滚 #34854 变更,使用 FP64 提高 Gumbel 噪声数值稳定性,牺牲大 batch 随机采样性能。

建议精读,特别是 tl_rand64 的实现和性能数据,以理解 Triton 内核中精度与性能的权衡,以及如何通过代码简化提升可读性。

缺陷修复 重要性 4.00 洞察度 3.00

修复 MXFP4 量化层中 LoRA 测试的维度暴露问题。

建议工程师关注此 PR 以了解 MXFP4 量化层中维度暴露的模式,对于处理类似量化或 LoRA 集成的开发有价值。变更简单,无需深入精读,但可作为量化模块维护的参考案例。

性能优化 重要性 5.00 洞察度 3.00

跳过 PW CUDA 图的隐藏状态分配以优化内存使用。

对于从事 CUDA 图优化或 MRV2 开发的工程师,建议精读此 PR 以了解内存优化技巧。关键设计决策在于区分 PW 和 full CUDA 图的处理路径,值得借鉴。

2026-03-22
2026-03-21
性能优化 重要性 5.00 洞察度 5.00

优化 Mamba 组获取逻辑,从每批次调用改为创建时一次性计算并重用。

工程师应关注此优化带来的性能收益,但需仔细阅读 review 中的风险提示,考虑在实际部署前评估配置变化的可能性,或未来添加断言以增强鲁棒性。

功能 重要性 6.00 洞察度 5.00

为Responses API添加kv_transfer_params支持,实现PD disaggregation功能。

建议工程师精读此PR,特别是context.py中guard的设计决策,以理解多回合agentic循环下的状态管理。对于负责Responses API或PD disaggregation的开发者,此PR是重要的功能扩展参考,展示了如何遵循现有模式进行API增强。

参与讨论