#21232 [sgl] perf optimization for eplb
作者 bixue2010 · 合并时间 2026-04-14 22:52
优化eplb算法性能,从>10秒降至0.2-0.3秒。
建议技术管理者精读此PR,关注算法优化策略和测试实践;工程师可学习如何将张量操作优化为列表操作以减少开销,并参考新增的单元测试作为质量保障范例。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 bixue2010 · 合并时间 2026-04-14 22:52
优化eplb算法性能,从>10秒降至0.2-0.3秒。
建议技术管理者精读此PR,关注算法优化策略和测试实践;工程师可学习如何将张量操作优化为列表操作以减少开销,并参考新增的单元测试作为质量保障范例。
作者 ispobock · 合并时间 2026-04-14 22:34
重构 unified radix cache 单元测试为参数化测试套件,提升可维护性。
对于测试工程师或维护 memory cache 模块的开发者,值得精读以学习参数化测试的设计模式。关注 CacheConfig 的数据结构设计和测试套件的组织方式,可作为类似重构的参考。
作者 mickqian · 合并时间 2026-04-14 22:10
支持 LTX-2.3 模型的两阶段文本到视频功能,扩展扩散模型能力。
该 PR 值得精读,尤其是对扩散模型开发者和维护者。重点关注设计决策,如两阶段去噪的清洁背景保留机制和扰动掩码处理,这些揭示了与官方实现对齐的技术权衡。
作者 chx96642264 · 合并时间 2026-04-14 21:34
更新 Ascend NPU 支持特性文档,调整参数支持状态和限制。
该 PR 值得 NPU 平台用户或文档维护者简要阅读,以了解参数支持状态的更新。无需深入代码分析,但可关注 review 中关于 `--enforce-piecewise-cuda-graph` 的讨论,以理解测试性功能的文档处理。
作者 McZyWu · 合并时间 2026-04-14 21:21
添加 Qwen3-Next 模型在 Ascend NPU 上的低延迟最佳实践文档。
对于 NPU 平台用户或文档维护者,建议浏览此 PR 以了解最新最佳实践和配置细节;对于其他开发者,变更内容简单,无需深入精读。
作者 amote-i · 合并时间 2026-04-14 21:10
更新Ascend NPU文档以匹配最新代码,修正模型名称和依赖版本。
该PR为常规文档维护,无需精读代码。值得关注的点是:1. 文档版本更新反映了NPU平台依赖的演进,可帮助了解硬件支持状态。2. review中关于安装指令优化的讨论,可作为编写Dockerfile或脚本的参考。建议NPU相关开发者浏览变更,确保本地环境与文档一致。
作者 lawtherWu · 合并时间 2026-04-14 20:51
修复Mooncake存储后端在Ascend HIXL环境下的初始化错误并扩展布局支持。
建议开发者在涉及NPU部署、Mooncake传输引擎或HiCache存储后端时精读此PR,特别关注初始化顺序的设计决策和'page_first_kv_spilt'布局的兼容性扩展。
作者 loading66 · 合并时间 2026-04-14 20:15
修正 Ascend NPU 文档中 Kimi 模型的组织名称拼写错误。
该 PR 不值得精读,除非您负责维护 Ascend NPU 文档或需要了解 Kimi 模型的确切路径。变更简单直接,没有值得关注的设计决策。
参与讨论