Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

cpu 相关 PR

2026-04-17

#22842 [CPU] Add gemma4_rmsnorm_cpu kernel

作者 blzheng · 合并时间 2026-04-17 13:03

功能 重要性 7.76 洞察度 5.00

新增Gemma 4 RMSNorm CPU内核,并扩展其他归一化内核支持3D输入,修复Xeon CI失败。

sgl-kernel cpu feature run-ci

建议负责CPU内核开发或模型推理优化的工程师精读此PR,重点关注`sgl-kernel/csrc/cpu/norm.cpp`中的3D输入支持设计和`python/sglang/srt/layers/layernorm.py`中的条件调用决策,这些设计模式在优化CPU计算和平衡性能与健壮性时值得借鉴。

缺陷修复 重要性 6.66 洞察度 6.00

修复CPU内核中因果掩码逻辑错误,解决大序列输入时NaN问题。

sgl-kernel bugfix cpu run-ci consistency

该PR值得精读,重点关注因果掩码条件从`num_keys - n <= BLOCK_N`到`n + n_size - 1 > m`的设计变更,这揭示了块状注意力中处理未来键的通用模式。工程师应学习如何通过钳位last_col避免越界写入,并在测试中覆盖边界情况。

2026-04-13
缺陷修复 重要性 4.00 洞察度 3.00

修复CPU后端DeepSeek-V3.1-Terminus模型运行时的参数类型错误。

bugfix run-ci deepseek cpu

该PR值得快速浏览以了解CPU后端量化参数传递的细节。关注点:1. qkv_proj_with_rope_is_fp8标志的使用方式,反映了量化类型的内核分发逻辑。2. 内核函数接口(w_scale类型为Optional[Tensor])的设计,可能影响其他量化场景。对于维护CPU后端或量化模块的工程师,此修复提供了处理类似类型不匹配问题的参考模式。