更新 NPU 支持模型和特性文档
作为文档更新 PR,建议 NPU 平台用户重点关注以了解最新的支持状态。虽无代码变更,但表格格式问题和默认值误写尚未修正,若已合并可考虑后续 PR 修复。
SGLang is a high-performance serving framework for large language models and multimodal models.
更新 NPU 支持模型和特性文档
作为文档更新 PR,建议 NPU 平台用户重点关注以了解最新的支持状态。虽无代码变更,但表格格式问题和默认值误写尚未修正,若已合并可考虑后续 PR 修复。
原始 PR · 作者 kkHuang-amd · 合并时间 2026-04-25 15:30
融合 QK Gemma RMSNorm 为单个 Triton 内核,减少 ROCm 内核启动开销
值得精读:展示了如何通过 Trition 内核融合减少 ROCm 平台内核启动开销,是 AMD 性能优化的典型实践。但数据类型硬编码和 reshape 拷贝争议应妥善解决;建议在同类 PR 中提前审查 dtype 与内存布局假设。
原始 PR · 作者 OrangeRedeng · 合并时间 2026-04-25 15:20
修复NPU扩散模型输出灰色图像的RoPE条件判断
值得一读,尤其是了解 NPU fallback 路径和 RoPE 实现的微妙之处。Reviewer 的建议展示了代码审查中对边界情况的敏感度。建议团队后续处理 reviewer 提出的两个潜在问题,提升 fallback 路径的鲁棒性。
新增 msProbe 调试工具集成,支持 forward 数据 dump
该 PR 展示了低侵入性调试集成的优秀实践:通过 CLI 参数控制、惰性导入、默认零开销。建议团队在类似场景中参考此模式。值得一读。
修复 move_hybrid_indices 污染 radix-tree 状态的 bug
建议精读此 PR,特别是了解如何通过创建新对象而非原地修改来避免共享状态污染的惯用法。这是一个典型的最小化修复案例,值得参考。
原始 PR · 作者 DarkSharpness · 合并时间 2026-04-25 14:00
重新引入 JIT 激活内核,修复 num_token=0 边界问题
值得精读,尤其是 `_fast_math_flags` 的设计权衡、custom op 的注册方式、以及如何通过条件导入保持向后兼容。对于需要维护多平台支持的开发者,本 PR 展示了如何用 JIT 替代部分 AOT 组件。
原始 PR · 作者 ishandhanani · 合并时间 2026-04-25 13:59
DeepSeek-V4 部署方案新增 B300 平台
该 PR 改动清晰且风险极低,值得合并。后续可关注 B300 与 B200 的差异是否需要独立的配置(如环境变量),但当前作为快速支持方案已足够。无需深入审查。
原始 PR · 作者 yctseng0211 · 合并时间 2026-04-25 13:23
融合 FP8 KV cache 写入,提升 AMD 解码吞吐
该 PR 为 AMD FP8 场景的小幅性能优化,逻辑清晰,风险低,建议合并。精读价值一般,但可关注 `launch_reshape_and_cache_flash` 的复用模式。
参与讨论