Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

debugging 相关 PR

2026-04-17

#22991 CI: fix lint

作者 mickqian · 合并时间 2026-04-17 02:09

基础设施 重要性 2.34 洞察度 1.00

修复代码拼写检查配置,将 'nd' 加入忽略列表。

run-ci debugging

此 PR 变更简单,无需精读。对于团队,可关注如何维护 `.codespellrc` 以平衡拼写检查严格性和开发便利性。

2026-04-11

#19102 Introduce CUDA graph debug mode with breakable CUDA graph

作者 cctry · 合并时间 2026-04-11 15:36

功能 重要性 6.00 洞察度 7.00

引入可打断CUDA图机制,支持调试模式和选择性图断点,提升CUDA图兼容性与可调试性。

feature debugging run-ci sgl-kernel

建议技术管理者和工程师精读此PR,它展示了如何在保持CUDA图性能优势的同时增强可调试性,涉及底层CUDA机制、Python装饰器设计和结构化输出处理,值得关注的设计决策包括图断点插入策略和兼容性权衡。

2026-04-10

#22463 Add skills for debugging hanging issues

作者 ispobock · 合并时间 2026-04-10 01:37

文档 重要性 3.00 洞察度 4.00

新增调试分布式推理挂起问题的技能文档,提供系统化排查方法。

documentation debugging run-ci

建议团队阅读此技能文档以掌握分布式调试方法,但无需精读代码变更。对于从事分布式推理开发的工程师,此文档是宝贵的参考资料。

2026-04-09
功能 重要性 5.00 洞察度 4.00

新增对称内存调试模式,打印通信操作中未注册张量的堆栈跟踪。

debugging documentation run-ci

建议开发者在调试分布式内存问题时精读pynccl_allocator.py中的debug_check_symmetric_mempool函数,关注其去重机制和堆栈跟踪生成方式,这对于理解对称内存池管理有价值。

2026-04-03

#21740 [CI] [Tracing] Add ci for tracing and fix bugs

作者 sufeng-buaa · 合并时间 2026-04-03 01:50

基础设施 重要性 5.00 洞察度 5.00

添加跟踪集成测试至CI并修复tokenizer manager中的bug。

run-ci test debugging

建议CI维护者和测试工程师精读此PR,重点关注轻量级OTLP收集器的设计、测试优化技巧以及安全绑定实践,以借鉴于其他基础设施测试中。

2026-04-01

#21830 Use CustomTestCase for TestSessionControl to enable CI retry

作者 hnyls2002 · 合并时间 2026-04-01 19:26

测试 重要性 4.00 洞察度 5.00

修复H200 GPU上会话控制测试的CI稳定性,通过继承CustomTestCase并禁用CUDA图优化。

test ci debugging

该PR值得快速浏览,重点关注其如何通过禁用CUDA图优化解决硬件特定数值差异问题。对于涉及会话控制或CUDA图优化的测试,可借鉴此方法确保计算路径一致性。

#21015 fix: only showing recent runners from ci failure analysis

作者 dougyster · 合并时间 2026-04-01 11:18

缺陷修复 重要性 5.00 洞察度 4.00

修复CI失败分析脚本,仅使用最近运行数据避免旧runner干扰,并添加失败job列表用于调试。

bugfix ci debugging

建议负责CI基础设施或监控的工程师精读此PR,重点关注数据范围缩小的设计权衡(如何平衡历史覆盖与性能),以及新增失败记录功能的实现细节,以借鉴于类似监控脚本优化。