#25786 [Bug] Correct Weight Offloader's Attribute Name for torch.nn.Parameter
原始 PR · 作者 xiaobao520123 · 合并时间 2026-05-20 13:28
修复 Parameter 属性名 typo
PR 值得合并,但 reviewer 提出的简化建议(`getattr` 和 `isinstance`)可考虑在后续重构中一并优化,以提高代码健壮性和可维护性。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 xiaobao520123 · 合并时间 2026-05-20 13:28
修复 Parameter 属性名 typo
PR 值得合并,但 reviewer 提出的简化建议(`getattr` 和 `isinstance`)可考虑在后续重构中一并优化,以提高代码健壮性和可维护性。
SM90 FP8 GEMM 引入 swap-AB 调度,小 batch 解码加速 1.16x
建议精读,特别是 fp8_gemm_sm90_dispatch.cuh 中基于 M/N 的分桶策略、swap-AB 的模板化实现以及 epilogue 的广播抽象。该 PR 展示了如何通过 CUTLASS 3.x EVT 灵活组合高效 GEMM 变体,对于未来 sgl-kernel 支持的优化有参考价值。
通过构造函数传递 PP start_layer 以解耦 ForwardBatch
该 PR 是典型的接口清洁重构,值得精读。展示了如何分步将静态配置从运行时对象剥离,并且带测试覆盖和连带 bug 修复。设计决策(使用构造函数参数而非全局单例或上下文)值得借鉴。
回滚 #25483,恢复 Wan2.2 ModelOpt 检查点为旧版 lmsys 路径
该 revert 保证主线稳定性,应被接受。建议后续: - 分析原 PR 的 CI 失败原因(可能是环境变量或权重版本不匹配)。 - 若需要重新引入,应先在分支上充分验证。 - 文档和示例应尽快更新,避免用户使用已回滚的路径。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-20 12:33
延迟 MTP 权重过滤修复 OOM 挂起
值得精读的 bugfix 典范:一行的逻辑错误(tuple 强制物化)导致整个系统在特定配置下不可用,修复后效果显著。代码改动虽小,但不熟悉迭代器模型的人容易犯同样错误。
对齐 diffusion benchmark 预设至 Nvidia nightly 配置
建议阅读 `bench_diffusion_denoise.py` 中新增的 `validate_nightly_alignment` 函数,了解如何自动检查配置漂移。对于维护 diffusion benchmark 的团队,该 PR 提供了一个可持续对齐 nightly 配置的机制。
原始 PR · 作者 liuxianglong17 · 合并时间 2026-05-20 11:39
限制 NPU 测试中 transformers 的日志级别
该 PR 属于常规维护性质,值得快速合入以改善测试体验。如果有更多 NPU 测试文件出现类似日志问题,建议统一纳入。
原始 PR · 作者 ShangmingCai · 合并时间 2026-05-20 11:17
PD 模块提前中止逻辑清理
值得精读以了解 PD 模块的中止流程演进。该 PR 是 PD 代码清理的延续,体现了团队在推动 `conclude_state` 统一化后的冗余清理工作。
参与讨论