Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-05-31 02:27 同步状态:空闲 下次计划:2026-05-31 03:27

PR 列表

更多筛选
2026-04-30

禁用 DeepSeek 注意力投影的动态 MXFP4 量化并启用 AITER 调优 BF16 GEMM

建议阅读 Review 中的讨论,特别是关于避免添加环境变量的决策过程和性能基准的论证。该 PR 展示了如何通过实测数据驱动默认值变更,并保持灵活性。ROCm 相关开发者可关注 `is_tgemm_enabled` 的实现,以便类似场景复用。

测试 重要性 6.20 洞察度 4.00

新增 MNNVL AllToAll 分布式测试套件

对于关心分布式通信和 CI 基础设施的工程师,值得精读测试框架设计,尤其是多进程环境管理和错误传播模式。对于主要关注模型推理逻辑的开发者,可快速浏览了解覆盖范围即可。

#39366 [BUG] Two phase pause to prevent deadlock

原始 PR · 作者 hao-aaron · 合并时间 2026-04-30 05:51

缺陷修复 重要性 8.13 洞察度 6.00

两阶段暂停协议修复 DP 引擎死锁

值得精读的设计案例:如何在不增加同步开销的前提下利用现有 all-reduce 实现全局共识。建议关注两阶段协议的模式以及 `_pause_complete` 多态覆盖的设计。未来可考虑在 `pending_pause` 时触发即时 all-reduce 以降低暂停延迟。

缺陷修复 重要性 5.91 洞察度 4.00

修复 ROCm W4A4 MOE 错误使用仿真后端

该 PR 值得精读以了解 PR#39801 引入的回归及修复方式,展示了配置变更如何意外影响调度逻辑,以及 review 中如何通过追问缩小修复范围。对于维护 ROCm/量化栈的工程师有参考价值。

性能优化 重要性 5.84 洞察度 6.00

优化推测解码中每步的numpy分配

值得合并。优化合理且验证充分,改动小,收益明确(尤其是 P99 延迟改善)。Review 中已解决所有疑虑。建议工程师关注类似的 per-step 临时分配模式,特别是在 decode 热路径中。

缺陷修复 重要性 4.53 洞察度 4.00

跳过纯文本模式下 MM 处理器初始化与 warmup

**值得精读**。虽然只是一行改动,但它展示了如何利用 registry 层统一的条件判断来避免重复实现,以及通过精确的 API 替代宽泛的布尔标志。对于理解 vLLM 的多模态初始化流程和 `multimodal_config` 的设计有参考价值。

基础设施 重要性 3.63 洞察度 3.00

BFCL评估脚本默认使用贪婪解码

该 PR 简单直接,无需深入审查。但可注意文件参数索引的调整(原第 6 个参数 output_dir 变为第 7 个),确保兼容性。

参与讨论