Prhub
← 返回仓库列表

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-04-18 19:11 同步状态:空闲 下次计划:2026-04-18 20:11

PR 列表

已合并 790 · 已分析 790
更多筛选
2026-03-23

#37798 [MRV2] Use FP64 for Gumbel noise

作者 WoosukKwon · 合并时间 2026-03-23 03:28

性能优化 重要性 6.00 洞察度 5.00

回滚 #34854 变更,使用 FP64 提高 Gumbel 噪声数值稳定性,牺牲大 batch 随机采样性能。

建议精读,特别是 tl_rand64 的实现和性能数据,以理解 Triton 内核中精度与性能的权衡,以及如何通过代码简化提升可读性。

2026-03-22
2026-03-21
性能优化 重要性 5.00 洞察度 5.00

优化 Mamba 组获取逻辑,从每批次调用改为创建时一次性计算并重用。

工程师应关注此优化带来的性能收益,但需仔细阅读 review 中的风险提示,考虑在实际部署前评估配置变化的可能性,或未来添加断言以增强鲁棒性。

功能 重要性 6.00 洞察度 5.00

为Responses API添加kv_transfer_params支持,实现PD disaggregation功能。

建议工程师精读此PR,特别是context.py中guard的设计决策,以理解多回合agentic循环下的状态管理。对于负责Responses API或PD disaggregation的开发者,此PR是重要的功能扩展参考,展示了如何遵循现有模式进行API增强。

#37128 [MoE Refactor] Mxfp4 oracle rebased

作者 zyongye · 合并时间 2026-03-21 11:37

重构 重要性 7.00 洞察度 7.00

重构 MXFP4 MoE 为 oracle 模式,统一后端选择并简化代码库。

建议工程师精读此 PR,特别是 oracle/mxfp4.py 和新的专家类,以理解 oracle 模式的设计决策和 MXFP4 的后端选择逻辑。关注 review 中解决的初始化和硬编码问题,以及如何统一不同后端的支持方法。对于维护者,需注意潜在的回归风险和测试覆盖。

#37694 Add get_device_uuid for rocm

作者 tmm77 · 合并时间 2026-03-21 11:33

功能 重要性 4.00 洞察度 3.00

为ROCm平台新增get_device_uuid方法,支持Verl应用的PPO和异步用例。

这是一个小而精的PR,适合关注ROCm支持或平台抽象实现的工程师精读。注意错误处理的设计和边界检查的添加,这些是防御性编程的好例子。

参与讨论