Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

sgl-kernel 相关 PR

2026-06-05

#23979 Enable DeepGEMM PDL on by default

原始 PR · 作者 b8zhong · 合并时间 2026-06-05 05:13

性能优化 重要性 4.58 洞察度 2.00

默认启用 DeepGEMM PDL

此 PR 是低风险、有明确性能收益的微小优化,适合合并。建议相关工程师了解 PDL 的基本原理,以及通过环境变量控制该特性的方式。

2026-06-04
性能优化 重要性 6.68 洞察度 7.00

移除 AMD 上 compressor GEMM 的 BF16→FP32 类型转换

该 PR 值得精读,特别是对于在 AMD 平台上部署 DeepSeek-V4 模型的团队。核心设计决策(在 HIP 路径绕过昂贵的类型转换,同时在 Triton kernel 中添加显式类型处理)展示了平台特定优化的典型方法。性能数据详实,aiter 库的使用也值得关注。

#21456 [CPU] upgrade dependent torch ver to PT2.12

原始 PR · 作者 ZailiWang · 合并时间 2026-06-04 11:04

基础设施 重要性 5.71 洞察度 4.00

升级 CPU 端 PyTorch 系列依赖至 2.12

建议 CPU 平台开发者和依赖管理者阅读该 PR,了解版本升级细节和适配方式。对于仅关注 GPU 的读者,此 PR 无直接参考价值。设计决策方面,迁移 AMX 查询到公开 API 是良好的版本兼容实践。

2026-06-03
性能优化 重要性 3.76 洞察度 3.00

显式启用 x86_64 的 AVX512/AMX 指令集

该 PR 值得阅读,它展示了在构建系统中如何处理指令集兼容性。对于维护者,需要确认发布二进制是否包含这些指令集,以及对旧硬件的策略;对于使用 CPU 后端的用户,建议验证目标 CPU 的指令集支持。

2026-06-01
功能 重要性 5.91 洞察度 7.00

MoE fused gate 内核扩展至 256 专家并优化性能

建议详细阅读 CUDA 内核实现,特别是模板化 GateConfig 和 small-token 路径的优化技巧(bank-conflict-free 写入、单 pass renorm),对 CUDA 性能优化有参考价值。测试用例的 parametrize 重构也值得学习。

2026-05-29

#16775 [CPU] Add GPT-OSS model optimization for CPU

原始 PR · 作者 blzheng · 合并时间 2026-05-29 16:05

功能 重要性 8.41 洞察度 5.00

为CPU添加GPT-OSS模型优化支持

值得精读,尤其是MoE kernel中bias和swiglu融合的设计方式、flash_attn逐行处理以支持sliding window的取舍,以及测试重构(@parametrize)模式。建议关注MXFP4路径的后续性能基准测试。

功能 重要性 9.00 洞察度 7.00

为 Apple Silicon 添加融合 KV 缓存的 Metal RoPE 内核

建议重点关注 `MlxAOTKernelRegistry` 可扩展设计,作为后端自定义内核的注册典范。同时关注 partial RoPE 兼容性处理和环境变量开关的默认配置。值得参考 3D 线程网格优化和零拷贝 buffer 捐赠策略。