#26937 Add per-rank staggered weight loading for improved TP I/O concurrency
原始 PR · 作者 power-more · 合并时间 2026-06-03 11:25
TP 权重加载排序与交错 I/O 优化
值得仔细阅读 `loader.py` 中交错逻辑的实现,并确认默认行为变更已广而告之。建议在 `test/registered` 中添加一个加载相关测试,覆盖 k=-1, 0, 1, 2 等场景,确保回归捕获。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 power-more · 合并时间 2026-06-03 11:25
TP 权重加载排序与交错 I/O 优化
值得仔细阅读 `loader.py` 中交错逻辑的实现,并确认默认行为变更已广而告之。建议在 `test/registered` 中添加一个加载相关测试,覆盖 k=-1, 0, 1, 2 等场景,确保回归捕获。
Cohere Command A Plus 模型推理支持
该 PR 值得精读,特别是自定义 Centered LayerNorm、sigmoid topk 路由、混合 MoE 后端分派策略以及推理/工具调用解析器的状态机设计。对于想扩展新模型支持的开发者,这是很好的参考模式。建议后续增加测试覆盖。
更新 LingBot 实时一致性 GT 数据及测试用例修复
此 PR 属于常规的测试数据同步与清理,技术价值有限。建议相关测试维护者关注 ci-data 仓库的关联 PR#13,确保 GT 数据版本一致。
优化 Cosmos3 I2V 潜变量预处理,减少 70% 阶段耗时
建议合并。这是一个干净的微小优化,改动明确、性能数据扎实、风险极低。代码库维护者可关注是否存在类似潜在冗余操作(例如其他 diffusion 模型的 I2V 预处理)。
WanVAE 解码输出就地 clamp,减少 FP32 分配
该 PR 改动简单但值得推广:类似的后处理 clamp 操作在 SGLang 其他 VAE 或生成模型中也可采用就地版本以减少显存开销。建议在编码规范中加入 '优先使用就地操作避免冗余分配' 的指引。
WanVAE 使用 Conv2d 原生宽度 padding
可精读,作为如何利用框架原生特性替代手动 pad 的案例。性能提升有限,但代码简洁性提升明显。
支持 DSV32 中 NextN=2/4 利用 deep-gemm 原生路径提升 MTP 性能
建议仔细阅读 `_build_paged_mqa_schedule_2d_ctx_lens` 和 `_get_topk_paged` 中的条件判断,理解原生路径与回退路径的设计取舍。同时关注后续 revert 或修复 PR 中对测试失败的处理。
为扩散模型 cookbook 添加 NEW 标签
可直接合并。建议前端文档站点确保支持 `tag` 字段渲染。
参与讨论