修复ROCm平台下量化测试条件,确保DeepGEMM相关测试正确跳过。
该PR变更简单直接,无需深入精读。值得关注的是项目正逐步统一使用current_platform.is_cuda()替代torch.cuda.is_available()进行平台检测,这反映了对多平台支持基础设施的持续改进。
A high-throughput and memory-efficient inference and serving engine for LLMs
修复ROCm平台下量化测试条件,确保DeepGEMM相关测试正确跳过。
该PR变更简单直接,无需深入精读。值得关注的是项目正逐步统一使用current_platform.is_cuda()替代torch.cuda.is_available()进行平台检测,这反映了对多平台支持基础设施的持续改进。
原始 PR · 作者 netanel-haber · 合并时间 2026-04-14 23:11
修复use_existing_torch.py脚本无法递归处理嵌套requirements文件夹的问题。
该PR变更简单直接,适合快速浏览以了解requirements文件夹结构调整带来的影响。值得关注的是递归glob模式的使用方式,以及如何保持向后兼容性。
原始 PR · 作者 Lucaskabela · 合并时间 2026-04-14 22:52
将多模态编码器编译时间从主模型分离测量
建议审核者精读 `vllm/benchmarks/startup.py` 的数据驱动重构和 `vllm/v1/worker/worker_base.py` 中 `CompilationTimes` 的设计,这是跨层传递结构化数据的良好范例。对于多模态模型开发者,此 PR 提供了更精确的编译时间诊断能力,值得学习。
将MOE相关层的基类从CustomOp替换为PluggableLayer,推进架构标准化。
该PR作为架构演进的一部分,值得核心开发者关注其设计决策,特别是关于`FusedMoE`中`forward`方法显式化的处理,以及`FusedMoEModularMethod`类被暂时搁置的权衡。这为理解vLLM从CustomOp向PluggableLayer迁移的模式提供了具体案例。
移除MoE DP chunking机制,简化运行器并统一到调度器配置。
该PR值得精读,特别是关注`ChunkingMoERunner`的移除如何简化MoE架构,以及默认值处理中的设计权衡。建议工程师检查外部集成点,确保`max_num_tokens`被正确设置,并学习配置统一的模式。
原始 PR · 作者 bhargav-patel-29 · 合并时间 2026-04-14 20:13
修复Param2Moe模型在张量并行下注意力头不匹配导致的错误计算。
建议工程师精读此PR以理解张量并行下注意力头处理的常见模式,并可参考类似模型实现。对于维护Param2Moe或类似架构的开发者,此修复至关重要。
修复音频加载因缺失soundfile依赖而崩溃的问题,改进错误处理。
该PR值得快速浏览,重点关注其如何通过调整异常捕获顺序解决PlaceholderModule引发的隐蔽问题,以及团队对可选依赖管理的共识。对于处理类似可选依赖场景的开发者有借鉴价值。
原始 PR · 作者 mgehre-amd · 合并时间 2026-04-14 19:00
修复多模态模型基准测试中总输入令牌计数不包含图像令牌的问题。
该PR值得精读,因为它揭示了基准测试工具在多模态场景下的一个常见陷阱:客户端与服务器令牌计数的不一致。关注点包括:1. 如何通过服务器返回的usage字段校正客户端计算。2. review中关于流式响应处理结构的讨论,虽然未在本PR解决,但值得注意。3. 修改的简洁性体现了bugfix的最佳实践:最小化变更,聚焦问题本身。
参与讨论