#21232 [sgl] perf optimization for eplb
作者 bixue2010 · 合并时间 2026-04-14 22:52
优化eplb算法性能,从>10秒降至0.2-0.3秒。
建议技术管理者精读此PR,关注算法优化策略和测试实践;工程师可学习如何将张量操作优化为列表操作以减少开销,并参考新增的单元测试作为质量保障范例。
标签列表
聚合结果
作者 bixue2010 · 合并时间 2026-04-14 22:52
优化eplb算法性能,从>10秒降至0.2-0.3秒。
建议技术管理者精读此PR,关注算法优化策略和测试实践;工程师可学习如何将张量操作优化为列表操作以减少开销,并参考新增的单元测试作为质量保障范例。
作者 ColinZ22 · 合并时间 2026-04-14 14:56
修复 GLM-5/5.1 MXFP4 量化检查点在 SGLang 中的推理兼容性问题。
该 PR 值得精读,特别是对于处理量化模型加载和 DeepSeek 架构的工程师。关注点包括:1) `packed_modules_mapping` 在模型加载中的通用设计模式;2) 条件检查如何精准隔离架构特定的量化处理逻辑,避免副作用;3) 从 review 讨论中学习代码结构一致性和防御性编程的最佳实践。
作者 blzheng · 合并时间 2026-04-13 09:59
修复CPU后端DeepSeek-V3.1-Terminus模型运行时的参数类型错误。
该PR值得快速浏览以了解CPU后端量化参数传递的细节。关注点:1. qkv_proj_with_rope_is_fp8标志的使用方式,反映了量化类型的内核分发逻辑。2. 内核函数接口(w_scale类型为Optional[Tensor])的设计,可能影响其他量化场景。对于维护CPU后端或量化模块的工程师,此修复提供了处理类似类型不匹配问题的参考模式。
作者 mmangkad · 合并时间 2026-04-12 17:19
为 FlashMLA KV 内核添加 q-head padding,支持纯 TP 配置下的 FP8 注意力计算。
建议精读 `nsa_backend.py` 中的填充实现,关注 `_forward_flashmla_kv` 方法的设计决策;同时注意默认配置变更对部署的影响。
作者 JustinTong0323 · 合并时间 2026-04-12 16:22
修复工具调用测试的随机失败问题,通过添加strict=True确保参数模式强制约束。
这是一个简单的测试修复,无需深入阅读。值得关注的是它揭示了工具调用协议中strict参数的重要性,以及小模型在非严格模式下可能产生不符合参数模式的输出。对于理解工具调用测试的设计和约束解码机制有一定参考价值。
作者 JustinTong0323 · 合并时间 2026-04-12 14:15
Whisper模型编码器从串行改为批量执行,提升高并发预填充吞吐量。
该PR值得精读,尤其是对于关注模型推理性能优化的工程师。关键设计决策包括:1) 识别编码器为瓶颈并量化其开销;2) 利用编码器天然的批次兼容性实现无交互的批量执行;3) 输出重塑策略以适配下游KV缓存。建议结合基准测试数据理解不同硬件平台上的收益差异。
作者 alisonshao · 合并时间 2026-04-12 12:40
更新 B200 测试的预计执行时间,防止在性能较慢的机器上超时。
此 PR 变更简单,无需精读。对于负责 CI 基础设施的工程师,可以关注 est_time 调整的策略和硬件性能差异的分析,作为优化测试分区的参考。
作者 hnyls2002 · 合并时间 2026-04-11 17:14
修复工具调用测试的随机失败问题,通过添加strict=True确保参数模式强制约束。
该PR变更简单直接,无需深入阅读。值得关注的是gemini-code-assist[bot]的建议——考虑将strict=True一致地应用于其他相关测试用例,以全面消除随机失败风险。