#40143 [Core] Reduce mm scheduler, get_num_embed overhead
作者 milesial · 合并时间 2026-04-18 11:25
通过将 embeds_cumsum 缓存从 torch.Tensor 改为 Python list,减少多模态调度器开销。
该 PR 值得精读,特别是关注如何通过缓存类型优化来减少 Python 与 torch 之间的转换开销,以及如何处理边界条件以确保健壮性。设计决策体现了性能与代码简洁性的权衡。
标签列表
聚合结果
作者 milesial · 合并时间 2026-04-18 11:25
通过将 embeds_cumsum 缓存从 torch.Tensor 改为 Python list,减少多模态调度器开销。
该 PR 值得精读,特别是关注如何通过缓存类型优化来减少 Python 与 torch 之间的转换开销,以及如何处理边界条件以确保健壮性。设计决策体现了性能与代码简洁性的权衡。
作者 mgoin · 合并时间 2026-04-18 10:26
通过优化测试用例生成逻辑,大幅缩短 Marlin MoE 融合内核测试的执行时间。
该 PR 是典型的测试优化案例,值得负责 CI 效率和 MoE 内核开发的工程师精读。重点关注其如何通过定义代表性场景来替代穷举组合,以及如何根据生产代码逻辑修正测试过滤条件。这为其他耗时长的参数化测试提供了优化思路。同时,应审阅 `MARLIN_MOE_SCENARIOS` 列表的完备性,确保关键维度(如各种量化格式、专家数量、并行配置)已被覆盖。
作者 gmagogsfm · 合并时间 2026-04-18 05:36
强制禁用 Helion HOP 路径以规避性能回归问题。
该 PR 值得快速浏览,重点关注其作为临时性能规避措施的设计决策。虽然变更简单,但揭示了团队在遇到性能回归时的应急处理模式:通过硬编码开关快速禁用问题路径,而非立即深入修复。建议关注后续相关 PR 以了解性能回归的根本修复。
作者 starkwj · 合并时间 2026-04-18 00:02
修复管道并行中chunked prefill与异步调度结合的卡死问题,提升吞吐量。
建议工程师精读此PR,重点关注管道并行与异步调度的交互设计,以及如何通过优雅跳过通信来优化性能。注意 `_is_all_reqs_chunked_prefill` 的实现细节和风险控制,并考虑补充自动化测试以覆盖此场景。
作者 bigPYJ1151 · 合并时间 2026-04-17 21:01
重构 CPU 亲和性与内存管理,修复性能回归并支持自动 KV 缓存大小分析。
建议技术管理者和工程师精读 `OMPProcessManager` 类的设计,理解其如何适配不同 OpenMP 库和架构;同时关注 `csrc/cpu/utils.cpp` 中的 NUMA 代码风险,并在部署前进行多架构测试。
作者 lgeiger · 合并时间 2026-04-17 20:37
修复 Gemma4 多模态模型在 embed_input_ids 中的 GPU/CPU 同步阻塞问题。
该 PR 虽然改动小,但揭示了 vLLM 在多模态模型推理中优化设备同步的典型模式。值得关注的点包括: - 理解 `non_blocking=True` 在避免同步阻塞时的应用场景。 - 学习如何平衡“张量留在 CPU”的设计意图与避免冗余传输的性能考量。 - 结合 PR #34246 查看完整演进脉络。
作者 mgoin · 合并时间 2026-04-17 10:48
延迟导入benchmark子命令和绘图库,减少CLI启动时间约2秒。
该PR值得精读,尤其对于关注Python启动性能优化和模块化设计的工程师。关键设计决策包括:延迟导入策略、健壮的命令行参数检测、以及环境变量替代硬编码配置,这些技巧可广泛应用于其他CLI工具优化。
作者 TheEpicDolphin · 合并时间 2026-04-17 07:27
优化MLA注意力索引器uniform decode路径,通过Triton kernel减少推测解码开销。
建议精读此PR,特别关注Triton kernel的设计和`_prepare_decode_tensors`中的条件分支,这是性能优化的核心。对于从事注意力后端、推测解码或kernel优化的工程师,可学习如何针对uniform场景进行针对性优化。