Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-05-09
2026-05-08
缺陷修复 重要性 5.10 洞察度 4.00

修复 FA3 varlen 注意力 out 参数传递错误

建议批准合并。该 PR 修复了一个实际运行时的 bug,影响面小,逻辑清晰。后续可考虑为 _call_fa3_kernel 添加单元测试。

文档 重要性 5.81 洞察度 4.00

更新 LTX 多 GPU 部署文档

对于使用 LTX 模型的用户,建议仔细阅读新增的多 GPU 预设部分。对于前端组件维护者,可参考 `getParallelFlags` 的对象查找模式。

重构 重要性 6.90 洞察度 6.00

移除 Aiter 后端 FP8 KV upcast,使用原生 FP8 路径

值得精读,尤其关注 FP8 推理优化路径的开发者。核心设计决策是消除隐式 upcast,利用内核原生 FP8 支持,这是 FP8 推理的最佳实践。需确认 aiter 内核的缩放因子处理是否与当前实现一致。

功能 重要性 6.80 洞察度 5.00

AMD扩散模型RMSNorm替换为aiter内核,加速30%

值得合并,改动清晰且风险可控。建议作者后续添加单元测试以覆盖 `forward_aiter` 的各种输入情况(包括 fp32 回退、残差分支、非连续张量等),确保长期维护性。该 PR 展示了如何在后端利用专用算子库(aiter)替换通用实现,是良好的微优化案例。

#24676 [NPU] [DOC] refresh npu supported model list

原始 PR · 作者 amote-i · 合并时间 2026-05-08 17:08

文档 重要性 4.22 洞察度 2.00

刷新 NPU 支持的模型列表

此 PR 属于常规文档维护,适合快速合并。但建议后续在文档中注明模型版本与代码配置的对应关系,或增加自动校验机制。

#24363 Turn on JIT custom AR implementation by default

原始 PR · 作者 b8zhong · 合并时间 2026-05-08 17:05

基础设施 重要性 5.02 洞察度 3.00

默认开启 JIT 自定义 AR v2

建议关注此 PR,因为它是默认行为变更,可能影响所有 CUDA 用户的推理性能。尤其是之前依赖原始 all-reduce 实现的用户应测试回归。

参与讨论