Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-13 17:27 同步状态:空闲 下次计划:2026-06-13 18:27

PR 列表

更多筛选
2026-05-02

#24273 [SKILLS] Tiny upgrade diffusion skills

原始 PR · 作者 BBuf · 合并时间 2026-05-02 22:04

文档 重要性 5.61 洞察度 3.00

更新 diffusion benchmark 预设并新增 LTX-2.3 支持

对于使用 diffusion benchmark 的团队建议尽快同步本 PR,确保基准测试的标准化。同时建议后续技能更新保持这种同步模式,并考虑自动化 weekly watchlist 更新。

性能优化 重要性 7.71 洞察度 5.00

默认启用 GroupNorm+SiLU 融合以加速 HunyuanVideo VAE 解码

值得精读,设计上采用安全 fallback 模式值得借鉴。review 中关于延迟导入的讨论也有参考价值。

#23938 Optimize large GroupNorm SiLU apply

原始 PR · 作者 BBuf · 合并时间 2026-05-02 20:54

性能优化 重要性 8.60 洞察度 6.00

GroupNorm SiLU 大形状优化,VAE 解码加速 18x

建议合并。该 PR 展示了 Triton kernel 优化的典型手法:通过分析访问模式简化地址计算和寄存器使用。新增的 benchmark 脚本便于未来回归和调优。值得关注的设计决策是使用条件分支选择不同 kernel 而非统一路径,以及将 num_warps 从 8 降低到 4 的权衡。

功能 重要性 7.63 洞察度 6.00

NPU Qwen3 TP通信INT8量化,Prefill阶段提升5%

值得阅读以了解通信量化和推理阶段集成的设计模式。建议关注后续大规模模型上精度验证,以及是否有计划推广到其他设备(如GPU INT8通信)。

重构 重要性 7.36 洞察度 5.00

为NPU测试添加GitHub总结功能并去重测试代码

此 PR 值得关注其 mixin 重构模式和 GitHub Summary 集成方案,可作为测试标准化的参考。但需注意 mixin 的隐式行为可能增加调试难度,建议为 mixin 补充详细的使用文档和单元测试。建议在 Part 2 中考虑参数化更多配置。

重构 重要性 6.26 洞察度 5.00

将 routed_experts 编码移出 tokenizer 热路径

该 PR 设计清晰,变更合理,建议合并且值得精读。重点关注 `_b64_encode_per_request` 的静态方法设计以及双路径的 fallback 机制,这种模式在类似场景中可以复用。

#23924 [Diffusion] Move ModelOpt checkpoints to lmsys

原始 PR · 作者 BBuf · 合并时间 2026-05-02 17:18

重构 重要性 4.15 洞察度 3.00

将 ModelOpt 检查点引用从 BBuf 迁移至 lmsys

此 PR 属于基础设施清理,建议快速合并以完成仓库迁移,提高项目的长期可维护性。读者可以关注其组织级仓库管理策略,对于类似依赖清理有参考价值。

缺陷修复 重要性 5.54 洞察度 3.00

修复CI权重校验器对0索引分片的误报

该 PR 修复明确且改动量极小,值得快速合并。但 reviewer 建议的更稳健启发式(检查是否存在分片 0 而非取最小值)可以进一步降低边缘 case 风险,建议作为后续改进项跟踪。

参与讨论