#22353 [SKILL] add torch profiler analysis workflow

原始 PR 作者 BBuf 合并时间 2026-04-09 12:53 文件变更 11 提交数 2 评论 2 代码增减 +5394 / -0

执行摘要

新增统一的 Torch Profiler 分析工作流程，提供内核分类、重叠分析和修复功能。

PR body指出，SGLang已有Torch Profiler跟踪，但缺少上游工具将跟踪转化为可操作表格。关联Issue #4描述了在B200硬件上对多个模型进行分析的需求，此PR上流了分析技能以支持重复的每模型分析，提升性能调试效率。

建议技术管理者关注此PR的设计决策，如两阶段跟踪分析和内核分类策略。工程师可精读 scripts/analyze_sglang_torch_profile.py 以了解性能分析最佳实践，并参考技能文档应用于实际模型分析。

讨论亮点

Review中仅有一个bot评论，无实质讨论或争议。PR author BBuf自行合并，表明变更已通过内部验证。关联Issue评论显示社区正面反馈，如@yuan-luo和@Fridge003的感谢，但无技术交锋。

实现拆解

实现拆解为：

1) 统一入口点 scripts/analyze_sglang_torch_profile.py，提供breakdown、overlap、triage、perfetto-fix四种子命令；
2) 内核分类脚本 analyze_sglang_llm_torch_profile.py，用于GPU时间分析和类别划分；
3) 重叠分析脚本 analyze_sglang_profiler_overlap.py，支持两阶段跟踪对比；
4) 共享帮助函数 profile_common.py，封装常用工具；
5) 技能文档和参考文件（如fuse-overlap-catalog.md），提供优化机会映射和启发式规则。

文件	模块	状态	重要度
`scripts/analyze_sglang_torch_profile.py`	tools	added	8.0
`scripts/analyze_sglang_llm_torch_profile.py`	tools	added	7.0
`scripts/analyze_sglang_profiler_overlap.py`	tools	added	7.0
`.claude/skills/sglang-torch-profiler-analysis/SKILL.md`	documentation	added	6.0
`scripts/profile_common.py`	tools	added	5.0

关键符号

run_profiler load_trace_json extract_trace_events classify_kernel analyze_overlap

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

Code Review 反馈 other

Reviewer gemini-code-assist[bot] 仅提供正面评论，无技术反馈，表明代码质量被认可。

结论：无争议，PR 已合并，变更被接受。 · 已解决

风险与影响

技术风险包括：

1) 新脚本的稳定性和错误处理可能不足，尤其在处理不同格式的trace文件时；
2) 与PyTorch版本或硬件（如B200 vs H100）的兼容性问题，可能影响分析准确性；
3) 文档和示例的准确性需要验证，若误导用户可能导致错误分析；
4) 分析工具本身无运行时风险，但依赖外部库如torch-profiler，版本升级可能引入breaking change。

影响范围：对开发者，提供了标准化的性能分析工具，简化调试和优化流程；对系统，无直接影响，因工具为离线分析；对团队，提升了性能调优效率，支持跨模型比较和持续集成。影响程度为中高，因改善了开发工作流，但未改变核心架构。

新工具稳定性兼容性风险文档完整性

关联 Issue

#4 一些例子

完整报告

执行摘要

本PR新增了统一的Torch Profiler分析工作流程，包括内核分类、重叠分析和修复功能，将SGLang的性能跟踪转化为可操作表格。通过标准化工具，开发者能更高效地进行模型级性能调优，基于实际B200硬件验证，对开发工作流有中高影响，无核心架构风险。

功能与动机

SGLang已有Torch Profiler跟踪能力，但缺乏上游工具将原始跟踪转化为可操作表格，导致性能分析依赖手动处理。PR body引用关联Issue #4，该Issue要求在B200硬件上对多个自回归模型进行系统化分析，以生成统一报告。本PR上流了"sglang-torch-profiler-analysis"技能，旨在提供可重复、源控制的分析工作流，支持从跟踪目录到内核分享、重叠机会和修复的全流程。

实现拆解

实现按模块拆解如下：

统一入口点：scripts/analyze_sglang_torch_profile.py 提供四个子命令：
- breakdown：单跟踪内核/类别分享分析
- overlap：两跟踪重叠分析，带源码映射
- triage：紧凑工作流，输出三个核心表格
- perfetto-fix：修复跟踪以改善Perfetto渲染
内核分类引擎：scripts/analyze_sglang_llm_torch_profile.py 使用预定义模式（如gemm、attention、moe）对GPU内核分类，计算时间占比。
重叠分析器：scripts/analyze_sglang_profiler_overlap.py 对比映射跟踪（图禁用）和正式跟踪（图启用），识别隐藏比例和优化头寸。
共享工具：scripts/profile_common.py 封装trace加载、事件提取等通用函数，确保代码复用。
文档与参考：技能文档（SKILL.md）和参考文件（如fuse-overlap-catalog.md）提供使用指南和优化目录，减少误报。

评论区精华

Review中无实质技术讨论，仅有一个bot评论认可代码质量。关联Issue评论显示社区正面反馈，例如：

@yuan-luo: "Thank you so much @BBuf !!"
@Fridge003: "This is so great!"
这表明变更已被接受，但缺乏深度技术交锋，可能意味着设计决策已内部验证。

风险与影响

技术风险：

稳定性风险：新脚本可能未覆盖所有边缘情况，如异常trace格式处理。
兼容性风险：依赖PyTorch profiler API，版本升级可能导致分析失效。
性能影响：工具为离线分析，无运行时风险，但若集成到CI可能增加开销。
文档准确性：技能文档若误导用户，可能引发错误分析结论。

影响分析：

用户影响：开发者获得标准化性能调试工具，提升效率；需学习新工作流程。
系统影响：无直接系统变更，工具不改变核心服务逻辑。
团队影响：促进性能调优文化，支持跨模型比较和持续监控。

关联脉络

本PR与近期历史PR共同反映SGLang对工具化和性能优化的关注：

PR 22308 添加pre-commit钩子验证测试，强调工作流程自动化。
PR 22384 重构内存池配置，提升代码模块化。
PR 22230 支持eagle3推测解码，涉及性能优化，本PR的分析工具可用于类似场景。
整体趋势显示，团队正在加强开发工具链和性能分析能力，以支持更复杂的模型部署和调优需求。

#22353 [SKILL] add torch profiler analysis workflow

执行摘要

新增统一的 Torch Profiler 分析工作流程，提供内核分类、重叠分析和修复功能。

实现拆解

评论区精华

风险与影响

关联 Issue

完整报告

参与讨论