Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-04-25
文档 重要性 4.24 洞察度 2.00

更新 NPU 支持模型和特性文档

作为文档更新 PR,建议 NPU 平台用户重点关注以了解最新的支持状态。虽无代码变更,但表格格式问题和默认值误写尚未修正,若已合并可考虑后续 PR 修复。

性能优化 重要性 7.69 洞察度 5.00

融合 QK Gemma RMSNorm 为单个 Triton 内核,减少 ROCm 内核启动开销

值得精读:展示了如何通过 Trition 内核融合减少 ROCm 平台内核启动开销,是 AMD 性能优化的典型实践。但数据类型硬编码和 reshape 拷贝争议应妥善解决;建议在同类 PR 中提前审查 dtype 与内存布局假设。

缺陷修复 重要性 3.94 洞察度 4.00

修复NPU扩散模型输出灰色图像的RoPE条件判断

值得一读,尤其是了解 NPU fallback 路径和 RoPE 实现的微妙之处。Reviewer 的建议展示了代码审查中对边界情况的敏感度。建议团队后续处理 reviewer 提出的两个潜在问题,提升 fallback 路径的鲁棒性。

#18349 [Feature]Add MSProbe dump support in SGLang

原始 PR · 作者 is-not · 合并时间 2026-04-25 15:12

功能 重要性 6.95 洞察度 6.00

新增 msProbe 调试工具集成,支持 forward 数据 dump

该 PR 展示了低侵入性调试集成的优秀实践:通过 CLI 参数控制、惰性导入、默认零开销。建议团队在类似场景中参考此模式。值得一读。

#22094 [JIT Kernel] Reland JIT activation

原始 PR · 作者 DarkSharpness · 合并时间 2026-04-25 14:00

功能 重要性 9.18 洞察度 6.00

重新引入 JIT 激活内核,修复 num_token=0 边界问题

值得精读,尤其是 `_fast_math_flags` 的设计权衡、custom op 的注册方式、以及如何通过条件导入保持向后兼容。对于需要维护多平台支持的开发者,本 PR 展示了如何用 JIT 替代部分 AOT 组件。

#23697 update: b300 container for dsv4

原始 PR · 作者 ishandhanani · 合并时间 2026-04-25 13:59

功能 重要性 4.55 洞察度 3.00

DeepSeek-V4 部署方案新增 B300 平台

该 PR 改动清晰且风险极低,值得合并。后续可关注 B300 与 B200 的差异是否需要独立的配置(如环境变量),但当前作为快速支持方案已足够。无需深入审查。

参与讨论