Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

sgl-kernel 相关 PR

2026-04-18

#23110 Clean up bench_one_batch warning and simplify norm dispatch

作者 merrymercy · 合并时间 2026-04-18 08:42

重构 重要性 5.64 洞察度 3.00

清理基准测试警告并简化归一化函数分发逻辑,提升代码清晰度。

sgl-kernel run-ci refactor

该PR值得快速浏览,重点关注归一化函数分发逻辑的简化方式,这是一种常见的代码优化模式;对于涉及设备特定逻辑(如musa)的清理,可思考是否在其他地方有类似遗留代码需要统一处理。

2026-04-17
性能优化 重要性 6.12 洞察度 5.00

预计算 GemmaRMSNorm 的 gemma_weight,避免每次前向重复加法开销。

performance run-ci sgl-kernel

该 PR 值得精读,尤其是 `_weight_loader` 的实现和缓冲区管理部分,展示了在 PyTorch 模块中如何安全地预计算并缓存张量,以及如何处理权重加载时的同步问题。关注设计决策:使用 `register_buffer` 缓存非持久化张量,并通过 `weight_loader` 回调确保缓存值与参数同步。

#22842 [CPU] Add gemma4_rmsnorm_cpu kernel

作者 blzheng · 合并时间 2026-04-17 13:03

功能 重要性 7.76 洞察度 5.00

新增Gemma 4 RMSNorm CPU内核,并扩展其他归一化内核支持3D输入,修复Xeon CI失败。

sgl-kernel cpu feature run-ci

建议负责CPU内核开发或模型推理优化的工程师精读此PR,重点关注`sgl-kernel/csrc/cpu/norm.cpp`中的3D输入支持设计和`python/sglang/srt/layers/layernorm.py`中的条件调用决策,这些设计模式在优化CPU计算和平衡性能与健壮性时值得借鉴。

缺陷修复 重要性 6.66 洞察度 6.00

修复CPU内核中因果掩码逻辑错误,解决大序列输入时NaN问题。

sgl-kernel bugfix cpu run-ci consistency

该PR值得精读,重点关注因果掩码条件从`num_keys - n <= BLOCK_N`到`n + n_size - 1 > m`的设计变更,这揭示了块状注意力中处理未来键的通用模式。工程师应学习如何通过钳位last_col避免越界写入,并在测试中覆盖边界情况。

#22924 [UnifiedRadixTree]: Add HiCache hook interface for TreeComponent

作者 hzh0425 · 合并时间 2026-04-17 12:09

功能 重要性 7.78 洞察度 5.00

为统一基数树组件添加HiCache钩子接口,支持缓存数据在设备、主机和存储间的传输管理。

hicache unified-radix-tree feature run-ci sgl-kernel

该PR值得架构师和核心缓存模块开发者精读,重点关注`CacheTransferPhase`枚举的设计和钩子方法的职责划分。这些接口为分层缓存系统提供了清晰的扩展点,是理解SGLang缓存架构演进的关键。

2026-04-16

#22386 [lora] Speedup triton backend `sgemm` calls with better grid

作者 klshuster · 合并时间 2026-04-16 04:47

性能优化 重要性 8.22 洞察度 6.00

优化多LoRA解码Triton sgemm内核网格调度,通过适配器排序减少GPU块启动数。

lora performance run-ci sgl-kernel consistency

该PR值得精读,重点关注内核中`_resolve_token_positions`的设计和排序实现,以及性能权衡;建议结合基准测试评估实际收益,并注意测试覆盖的完整性。

#22723 [Fix] Fix accuracy bug in Flashmla sparse MLA kernel

作者 Fridge003 · 合并时间 2026-04-16 04:40

缺陷修复 重要性 2.93 洞察度 4.00

修复FlashMLA稀疏内核精度问题,更新外部依赖版本。

sgl-kernel run-ci bugfix consistency

该PR值得关注,因为它展示了通过更新外部依赖修复核心内核精度问题的典型模式。虽然变更简单,但揭示了项目对第三方内核库的依赖管理策略。建议阅读时结合Issue #21291理解问题背景,并关注后续是否添加准确性验证测试。

2026-04-15

#22725 [Misc] Use cache_once for is_arch_support_pdl in sgl-kernel

作者 merrymercy · 合并时间 2026-04-15 06:22

重构 重要性 6.85 洞察度 6.00

为 sgl-kernel 的架构检测函数添加缓存装饰器并增强健壮性。

sgl-kernel refactor run-ci

该 PR 值得精读,尤其是 `cache_once` 装饰器的实现,它展示了如何为 `torch.compile` 兼容性设计轻量级缓存。关注点包括:装饰器的键设计、异常处理策略、以及如何统一跨模块的架构检测逻辑。对于涉及 PyTorch 编译或跨平台 GPU 代码的开发者,这是一个实用的参考案例。