Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-26

DSA TopK 后端可配置,集成 FlashInfer/PyTorch

值得精读。设计上采用策略模式将后端选择与核心逻辑分离,是良好的模块化范例。讨论中关于 CUDA graph 安全和性能优化的取舍有借鉴意义。建议后续熟悉 DSA 注意力机制的工程师关注此 PR 中的设计权衡。

2026-05-25

#25848 [diffusion] Add CFG gating for denoising

原始 PR · 作者 BBuf · 合并时间 2026-05-25 22:57

功能 重要性 8.02 洞察度 6.00

CFG 门控复用残差,减少去噪计算

值得精读。关键设计包括:缓存 delta 按模型身份失效确保多模型场景正确、与 cfg_parallel 互斥通过简单条件判断、状态字典统一管理。实现简洁,注释清晰,适合作为扩散推理加速的范例。

#25847 [diffusion] Cache fp32 layernorm params

原始 PR · 作者 BBuf · 合并时间 2026-05-25 22:56

性能优化 重要性 7.07 洞察度 6.00

缓存 diffusion 中 FP32LayerNorm 参数转换

值得关注缓存失效设计,测试覆盖全面。如使用扩散模型,建议合并。

功能 重要性 6.81 洞察度 4.00

NPU扩散分解功能启用,抽象平台API

值得精读。该 PR 清晰地展示了如何将 CUDA 硬编码代码迁移为平台无关的抽象,为后续支持更多硬件奠定了基础。`current_platform` 和 `torch.get_device_module()` 的使用模式值得作为跨平台开发的参考。

缺陷修复 重要性 5.49 洞察度 4.00

修复 CUDA Graph 填充行 req_pool 索引脏数据问题

推荐合并。这是一个简洁且正确的 bugfix,与已有的 Eagle draft 做法保持一致。值得关注的是,设计上保留 slot 0 作为全零占位的约定,后续开发中应注意维护此约定。

参与讨论