Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

diffusion 相关 PR

2026-06-06

#27440 [Diffusion] Avoid GPU syncs in UniPC scheduler

原始 PR · 作者 BBuf · 合并时间 2026-06-06 22:01

性能优化 重要性 6.14 洞察度 6.00

用 torch.stack 替换 torch.tensor 避免 GPU 同步

值得精读,尤其关注如何在推理框架中通过简单代码替换消除隐式 GPU-CPU 同步。建议后续考虑采纳 reviewer 的 `torch.ones_like` 简化建议。

#26356 [NPU]Support torch_npu profiler patch API drift

原始 PR · 作者 L4-1024 · 合并时间 2026-06-06 21:27

缺陷修复 重要性 7.20 洞察度 4.00

新增 torch_npu 补丁 API 兼容层并更新调用方

建议 NPU 相关开发者阅读,该 PR 展示了如何平滑处理上游库的 API 漂移,并提供了可复用的兼容函数。单元测试覆盖了三种场景,值得参考。

#27379 [diffusion] model: support Ideogram4 NVFP4

原始 PR · 作者 mickqian · 合并时间 2026-06-06 11:14

功能 重要性 9.18 洞察度 5.00

新增Ideogram4 NVFP4 原生支持

建议阅读此PR以了解如何在SGLang中集成新的扩散模型和量化方案。重点关注bitsandbytes适配器的设计、Comfy布局推断逻辑以及量化线性层的工厂模式。对于review中提出的两个正确性问题,建议在后续迭代中修复。

性能优化 重要性 6.75 洞察度 6.00

优化 LingBot 实时 SP 缓存路径与 USP 通信

值得精读。该 PR 展示了如何通过细粒度的缓存复用和通信路径选择来优化实时推理管线的关键瓶颈,设计决策清晰,性能收益量化充分。建议关注 GPT reviewer 提出的进一步优化建议。

#27096 [diffusion] Cosmos3 fused qknorm rope

原始 PR · 作者 qimcis · 合并时间 2026-06-06 09:15

性能优化 重要性 8.76 洞察度 6.00

融合 QK-norm 与 RoPE,Cosmos3 推理加速 4 倍

此 PR 值得精读,尤其推荐给以下读者: - 关注文生视频模型推理性能优化 - 想了解如何将特定模型组件(如 Qwen3 half-split RoPE)映射到通用融合 kernel - 需要学习 GQA 场景下 partial rope 的 triton 实现模式 - 研究 DiT 架构注意力层加速的工程师

2026-06-05
功能 重要性 9.00 洞察度 5.00

为 multimodal_gen 添加 Ideogram 4 FP8 文生图支持

值得精读。该 PR 展示了在 SGLang 框架中系统性地添加新扩散模型的完整流程,包括配置、模型、pipeline 和测试,尤其是通过继承基类减少重复代码和共享工具函数的设计思路值得学习。

#27341 [MUSA] Fix LingBot World timestep

原始 PR · 作者 yeahdongcn · 合并时间 2026-06-05 19:15

缺陷修复 重要性 6.27 洞察度 5.00

修复 MUSA 平台下 LingBot World 时间步数据类型

该 PR 是典型的平台兼容性修复,值得所有需要跨硬件类型运行的团队参考。尤其是 `current_platform.is_float64_supported()` 这种设计模式,可以作为未来处理类似数据类型兼容问题的通用范式。建议合入后,在 MUSA CI 中加入相关测试用例以防止回归。