#21977 perf: enable inductor combo_kernels for horizontal fusion
作者 jasperjiaguo · 合并时间 2026-04-11 01:01
启用Inductor水平融合优化,减少GPU内核数14%,提升推理效率。
建议工程师精读configure_inductor方法,学习如何条件启用编译优化以避免副作用;关注设计决策:将配置集中化并添加条件控制,体现了模块化设计思路。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 jasperjiaguo · 合并时间 2026-04-11 01:01
启用Inductor水平融合优化,减少GPU内核数14%,提升推理效率。
建议工程师精读configure_inductor方法,学习如何条件启用编译优化以避免副作用;关注设计决策:将配置集中化并添加条件控制,体现了模块化设计思路。
作者 2022tgoel · 合并时间 2026-04-11 00:39
优化推测解码中Mamba跟踪索引计算,用张量操作替代循环提升性能。
建议关注此PR作为性能优化案例,特别是如何将循环操作转化为张量索引。对于深入理解推测解码和Mamba集成的工作机制,此变更值得精读。同时,可对比schedule_batch.py中的类似实现,学习代码复用模式。
作者 bixue2010 · 合并时间 2026-04-11 00:26
修复 attention tp 中 symmetric memory 创建问题,确保 RowParallelLinear 和 llama 模型正确使用对称内存。
该 PR 值得精读,特别是对于从事分布式并行和内存优化的工程师。关注 linear.py 中 symmetric memory context 的选择逻辑,以及参数传递的设计决策,从中学习如何在复杂系统中处理条件分支和避免过度更改。
作者 Ratish1 · 合并时间 2026-04-10 23:08
为扩散模型添加模型技能添加组件准确性指南,明确测试配置的覆盖率处理流程。
该PR是文档更新,无需精读代码逻辑。建议相关开发者(尤其是负责扩散模型测试配置的工程师)阅读新增的指南部分,以了解组件准确性覆盖的最佳实践。关注点在于文档中列举的三种场景及其处理方式,这有助于在未来的测试配置工作中避免常见陷阱。
作者 Ratish1 · 合并时间 2026-04-10 23:06
统一多模态组件准确性测试至 run_suite.py 入口点,简化 CI 工作流。
建议 CI 工程师和测试团队精读此 PR,重点关注 `run_suite.py` 中组件准确性套件的设计决策(如文件级分区与项目级分区的权衡)和 CI 工作流的更新模式,以借鉴如何集成特殊测试需求到统一运行框架中。
作者 kingkingleeljj · 合并时间 2026-04-10 22:21
修复MiniMax M2.5模型在TP=16时因KV头复制导致的RMSNorm权重分片错误,解决重复输出问题。
该PR值得精读,特别是对于处理TP配置与模型头数不匹配场景的工程师。关注点包括: 1. 头复制感知的权重分片设计,借鉴了QKVParallelLinear的成熟模式。 2. 防御性编程实践,如添加assert和边界检查。 3. 方差归约逻辑的修正,展示了TP下归一化的常见陷阱。
作者 BBuf · 合并时间 2026-04-10 20:56
为FLUX和Wan2.2扩散模型添加ModelOpt FP8支持,提升推理性能并提供可重用工作流。
该PR值得精读,特别是`modelopt_quant.py`中的量化配置设计和`transformer_load_utils.py`中的适配器逻辑,展示了如何处理FP8权重的特殊布局要求和自动禁用offload的设计权衡。关注转换工具的通用性设计和验证工具的方法学。
作者 cs-cat · 合并时间 2026-04-10 18:58
修复 GDN 内核以支持非连续 B/A 张量输入,解决 Qwen3.5-27B 准确性回归问题。
建议工程师精读此 PR,以学习内核中处理非连续内存布局的技术细节,以及如何通过显式步幅参数扩展内核通用性。关注测试文件中的模拟方法,可作为类似场景的参考。
参与讨论