Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-25

#23564 [NPU] [DOC] Update supported models and features of npu

原始 PR · 作者 amote-i · 合并时间 2026-04-25 15:37

文档重要性 4.24 洞察度 2.00

更新 NPU 支持模型和特性文档

作为文档更新 PR，建议 NPU 平台用户重点关注以了解最新的支持状态。虽无代码变更，但表格格式问题和默认值误写尚未修正，若已合并可考虑后续 PR 修复。

npudocumentation

#23575 [AMD] fused qk gemma norm kernels to reduce four kernels

原始 PR · 作者 kkHuang-amd · 合并时间 2026-04-25 15:30

性能优化重要性 7.69 洞察度 5.00

融合 QK Gemma RMSNorm 为单个 Triton 内核，减少 ROCm 内核启动开销

值得精读：展示了如何通过 Trition 内核融合减少 ROCm 平台内核启动开销，是 AMD 性能优化的典型实践。但数据类型硬编码和 reshape 拷贝争议应妥善解决；建议在同类 PR 中提前审查 dtype 与内存布局假设。

amdperformancejit-kernel

#23266 [NPU] [Bugfix] [Diffusion] Fixed gray images at the generation output

原始 PR · 作者 OrangeRedeng · 合并时间 2026-04-25 15:20

缺陷修复重要性 3.94 洞察度 4.00

修复NPU扩散模型输出灰色图像的RoPE条件判断

值得一读，尤其是了解 NPU fallback 路径和 RoPE 实现的微妙之处。Reviewer 的建议展示了代码审查中对边界情况的敏感度。建议团队后续处理 reviewer 提出的两个潜在问题，提升 fallback 路径的鲁棒性。

npubugfixdiffusion

#18349 [Feature]Add MSProbe dump support in SGLang

原始 PR · 作者 is-not · 合并时间 2026-04-25 15:12

功能重要性 6.95 洞察度 6.00

新增 msProbe 调试工具集成，支持 forward 数据 dump

该 PR 展示了低侵入性调试集成的优秀实践：通过 CLI 参数控制、惰性导入、默认零开销。建议团队在类似场景中参考此模式。值得一读。

featuredebuggingdocumentation

#23427 [HiCache] Prevent move_hybrid_indices from polluting radix-tree node host state

原始 PR · 作者 cs-cat · 合并时间 2026-04-25 14:27

缺陷修复重要性 6.75 洞察度 5.00

修复 move_hybrid_indices 污染 radix-tree 状态的 bug

建议精读此 PR，特别是了解如何通过创建新对象而非原地修改来避免共享状态污染的惯用法。这是一个典型的最小化修复案例，值得参考。

hicachebugfixkv-cache

#22094 [JIT Kernel] Reland JIT activation

原始 PR · 作者 DarkSharpness · 合并时间 2026-04-25 14:00

功能重要性 9.18 洞察度 6.00

重新引入 JIT 激活内核，修复 num_token=0 边界问题

值得精读，尤其是 `_fast_math_flags` 的设计权衡、custom op 的注册方式、以及如何通过条件导入保持向后兼容。对于需要维护多平台支持的开发者，本 PR 展示了如何用 JIT 替代部分 AOT 组件。

jit-kernelperformancerefactor

#23697 update: b300 container for dsv4

原始 PR · 作者 ishandhanani · 合并时间 2026-04-25 13:59

功能重要性 4.55 洞察度 3.00

DeepSeek-V4 部署方案新增 B300 平台

该 PR 改动清晰且风险极低，值得合并。后续可关注 B300 与 B200 的差异是否需要独立的配置（如环境变量），但当前作为快速支持方案已足够。无需深入审查。

deepseekdocumentation

#23620 [AMD] Optimize MiniMax-M2.5 - enable fused Triton kernel for FP8 KV cache write in aiter decode path

原始 PR · 作者 yctseng0211 · 合并时间 2026-04-25 13:23

性能优化重要性 5.74 洞察度 3.00

融合 FP8 KV cache 写入，提升 AMD 解码吞吐

该 PR 为 AMD FP8 场景的小幅性能优化，逻辑清晰，风险低，建议合并。精读价值一般，但可关注 `launch_reshape_and_cache_flash` 的复用模式。

amdfp8performance

第 210 / 357 页 · 共 2850 条

上一页 1 … 208 209 210 211 212 … 357 下一页