#20910 Add SGLang CUDA crash API logging inspired by FlashInfer

原始 PR 作者 BBuf 合并时间 2026-03-22 16:39 文件变更 46 提交数 24 评论 26 代码增减 +1585 / -19

执行摘要

添加 SGLang CUDA 崩溃 API 日志记录功能，用于调试 LLM 和扩散内核调用边界。

根据PR body，动机是添加SGLang-native API-level CUDA crash logging for LLM and diffusion kernel call boundaries，灵感来自FlashInfer的API logging utility（https://github.com/flashinfer-ai/flashinfer/blob/main/flashinfer/api_logging.py）。目的是在CUDA崩溃（如illegal memory access, device-side assert）前捕获输入张量，便于调试数据问题，同时保持实现简洁，专注于崩溃调试和level-10 dump capture，不包括replay代码。

建议技术管理者和工程师精读本PR，重点关注以下方面：

设计决策：python/sglang/kernel_api_logging.py中的装饰器实现，如何集成环境变量控制和dump生成，值得学习可配置调试系统设计。
代码优化：自动推断op名称的机制，减少手动维护，展示Python装饰器高级用法。
review洞察：讨论中的命名约定和类型友好性改进，提供了软件工程最佳实践案例。

讨论亮点

review讨论中的核心点包括：

命名约定改进：merrymercy建议将环境变量从SGLANG_API_LOGLEVEL重命名为SGLANG_KERNEL_API_LOGLEVEL，并指出“api”名称不精确，因为SGLang的API是“generate”、“chat”等，而logging针对内核调用。BBuf修改了相关代码。
装饰器设计优化：DarkSharpness建议使装饰器类型友好，类似register_custom_op，保持函数签名信息；merrymercy多次强调装饰器应自动推断op名称，避免手动指定（如op_name="jit_kernel.diffusion.triton.norm_infer"），以减少代码冗余。BBuf在commit“refactor: auto infer debug kernel names”中重构实现，支持自动推断。
文档澄清：merrymercy建议技能描述更明确，如“Call this skill when you need to debug CUDA crashes using kernel API logging”，BBuf相应更新。
讨论结论是BBuf积极回应并修改代码，所有争议点已解决，体现了设计权衡和团队协作。

实现拆解

实现方案按模块拆解：

核心logging模块：新增python/sglang/kernel_api_logging.py，提供debug_kernel_api装饰器，支持环境变量SGLANG_KERNEL_API_LOGLEVEL控制日志级别（0-10），处理日志输出和dump文件生成。
装饰器工具：新增python/sglang/jit_kernel/debug_utils.py，实现maybe_wrap_jit_kernel_debug装饰器，用于包装JIT kernel函数；在sgl-kernel/python/sgl_kernel/debug_utils.py中添加类似工具。
内核集成：修改46个文件，在关键JIT kernel函数（如norm.py、flash_attention_v4.py、扩散triton内核）上添加@maybe_wrap_jit_kernel_debug装饰器，自动推断op名称以减少手动指定。
模块扩展：更新LLM和扩散模块，如注意力层（python/sglang/multimodal_gen/runtime/layers/attention/layer.py）、线性层（python/sglang/srt/layers/linear.py）、自定义操作（python/sglang/srt/utils/custom_op.py），使用wrap_method_with_debug_kernel_once或debug_torch_op集成logging。
文档与环境变量：新增技能文档.claude/skills/debug-cuda-crash/SKILL.md，详细说明调试流程；更新环境变量文档（docs/diffusion/environment_variables.md和docs/references/environment_variables.md）记录新变量。

文件	模块	状态	重要度
`.claude/skills/debug-cuda-crash/SKILL.md`	documentation	added	5.0
`python/sglang/kernel_api_logging.py`	debugging	added	9.0
`python/sglang/jit_kernel/debug_utils.py`	debugging	added	7.0
`python/sglang/jit_kernel/norm.py`	jit-kernel	modified	4.0
`python/sglang/multimodal_gen/runtime/layers/attention/layer.py`	diffusion	modified	4.0

关键符号

debug_kernel_api maybe_wrap_jit_kernel_debug wrap_method_with_debug_kernel_once debug_torch_op _wrap_jit_kernel_debug

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

命名约定和环境变量重命名 设计

merrymercy 指出 'SGLANG API' 名称太宽泛，建议改为 'SGLANG_KERNEL_API_LOGLEVEL' 以更精确反映内核 logging，并批评 'api' 术语不准确。

结论：BBuf 修改了环境变量名称和相关代码，统一为 'SGLANG_KERNEL_API_*' 前缀。 · 已解决

装饰器自动推断 op 名称 设计

merrymercy 多次建议装饰器应自动推断函数名称，而不是手动指定（如 op_name 参数），以减少代码冗余和维护成本。

结论：BBuf 在 commit 中重构实现，支持基于函数和文件路径自动推断名称，简化了装饰器使用。 · 已解决

装饰器类型友好性 设计

DarkSharpness 建议使装饰器类型友好，类似 register_custom_op，保持函数签名信息以支持静态类型检查。

结论：BBuf 回应并修改装饰器实现，使用 overload 和 TypeVar 改善类型提示。 · 已解决

风险与影响

技术风险具体包括：

性能开销：启用logging（日志级别>0）时，装饰器会增加函数调用和日志写入开销，可能影响推理性能，但默认级别0禁用，风险可控。
兼容性风险：新增环境变量SGLANG_KERNEL_API_LOGLEVEL等，若与现有配置冲突可能影响行为，但文档已更新说明默认值。
代码侵入性：装饰器添加到46个核心文件，涉及JIT kernel、注意力、线性等模块，增加代码复杂度和维护负担，但设计为非侵入式（默认禁用）。
潜在bug：新logging逻辑在异常处理（如CUDA graph捕获、torch编译）中可能引入错误，但review中讨论了_is_compiling()和_is_cuda_graph_capture_active()检查以缓解。

影响评估：

用户影响：为开发者和工程师提供强大的CUDA崩溃调试工具，能捕获崩溃前输入张量，显著缩短调试时间，改善开发体验。
系统影响：添加新模块和装饰器，轻微增加代码库大小（1585行添加），仅在调试时启用对性能影响有限；覆盖LLM和扩散关键路径，提升系统可调试性。
团队影响：促进内核开发和问题定位，可能提高代码质量和稳定性；技能文档增强团队知识共享。影响范围中等，主要针对调试场景，不改变生产环境核心功能。

性能开销风险环境变量兼容性代码侵入性增加

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR为SGLang添加了CUDA崩溃API日志记录功能，灵感来自FlashInfer，旨在解决LLM和扩散内核调用边界在CUDA错误（如非法内存访问）时调试困难的问题。通过核心logging模块、装饰器工具和环境变量控制，实现崩溃前输入张量捕获，覆盖关键路径，并附详细技能文档。该功能仅在调试时启用，不影响生产性能，已通过review优化命名和设计。

功能与动机

为什么做：根据PR body，CUDA错误（如illegal memory access, device-side assert）常导致程序崩溃，难以捕获崩溃前数据。本PR添加SGLang-native API-level logging，在崩溃前记录输入张量形状、类型和值，便于调试数据问题。灵感来自FlashInfer的API logging utility，但专注于崩溃调试和level-10 dump capture，不包括replay代码以保持实现简洁。

实现拆解

核心模块：

python/sglang/kernel_api_logging.py：新增470行代码，实现debug_kernel_api装饰器，支持环境变量SGLANG_KERNEL_API_LOGLEVEL（0-10级别）控制日志输出和dump文件生成。
python/sglang/jit_kernel/debug_utils.py：45行代码，提供maybe_wrap_jit_kernel_debug装饰器，自动推断op名称，减少手动指定。

集成点：

JIT Kernel：修改46个文件，如norm.py、flash_attention_v4.py，添加@maybe_wrap_jit_kernel_debug装饰器到关键函数（如fused_inplace_qknorm）。
扩散模块：更新注意力层（layer.py）、线性层（linear.py），使用wrap_method_with_debug_kernel_once包装forward方法。
LLM模块：修改custom_op.py、bitsandbytes.py等，用debug_torch_op替换torch.ops.sglang.*调用。
sgl-kernel：在__init__.py中自动包装导出函数，添加maybe_wrap_debug_kernel装饰器。

文档与环境：新增技能文档.claude/skills/debug-cuda-crash/SKILL.md（657行），详细教程；更新环境变量文档记录新变量。

评论区精华

review讨论聚焦设计改进：

命名约定：merrymercy指出“SGLANG API”太宽泛，建议重命名为“SGLANG_KERNEL_API_LOGLEVEL”，BBuf修改。
自动推断：merrymercy多次强调装饰器应自动推断op名称，而非手动指定，BBuf在commit中重构实现。
类型友好性：DarkSharpness建议装饰器保持签名信息，BBuf优化了类型提示。

merrymercy原话：“It is not very precise to call them 'api' of sglang. The API of sglang is 'generate', 'chat'.”
讨论结论显示团队注重代码质量和用户体验，问题均被解决。

风险与影响

风险：

性能开销：启用logging增加调用开销，但默认禁用，风险低。
兼容性：新环境变量需文档说明，避免配置冲突。
代码复杂度：装饰器侵入多个核心文件，可能增加维护负担。
影响：
用户：提升调试效率，缩短问题定位时间。
系统：添加调试基础设施，不影响生产性能。
团队：改善开发体验，促进内核稳定性。

关联脉络

与历史PR关联：

PR #21122：清理扩散Triton内核，与本PR修改的文件重叠，反映团队对内核代码的持续优化。
PR #21130：添加测试技能指南，与本PR的技能文档相辅相成，显示文档和测试的协同演进。
从近期PR看，SGLang在性能优化、调试工具和文档方面并行发展，本PR是调试基础设施的重要补充。

#20910 Add SGLang CUDA crash API logging inspired by FlashInfer

执行摘要

添加 SGLang CUDA 崩溃 API 日志记录功能，用于调试 LLM 和扩散内核调用边界。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论