#22991 CI: fix lint
作者 mickqian · 合并时间 2026-04-17 02:09
修复代码拼写检查配置,将 'nd' 加入忽略列表。
此 PR 变更简单,无需精读。对于团队,可关注如何维护 `.codespellrc` 以平衡拼写检查严格性和开发便利性。
标签列表
聚合结果
作者 mickqian · 合并时间 2026-04-17 02:09
修复代码拼写检查配置,将 'nd' 加入忽略列表。
此 PR 变更简单,无需精读。对于团队,可关注如何维护 `.codespellrc` 以平衡拼写检查严格性和开发便利性。
作者 cctry · 合并时间 2026-04-11 15:36
引入可打断CUDA图机制,支持调试模式和选择性图断点,提升CUDA图兼容性与可调试性。
建议技术管理者和工程师精读此PR,它展示了如何在保持CUDA图性能优势的同时增强可调试性,涉及底层CUDA机制、Python装饰器设计和结构化输出处理,值得关注的设计决策包括图断点插入策略和兼容性权衡。
作者 ispobock · 合并时间 2026-04-10 01:37
新增调试分布式推理挂起问题的技能文档,提供系统化排查方法。
建议团队阅读此技能文档以掌握分布式调试方法,但无需精读代码变更。对于从事分布式推理开发的工程师,此文档是宝贵的参考资料。
作者 nvcastet · 合并时间 2026-04-09 13:34
新增对称内存调试模式,打印通信操作中未注册张量的堆栈跟踪。
建议开发者在调试分布式内存问题时精读pynccl_allocator.py中的debug_check_symmetric_mempool函数,关注其去重机制和堆栈跟踪生成方式,这对于理解对称内存池管理有价值。
作者 sufeng-buaa · 合并时间 2026-04-03 01:50
添加跟踪集成测试至CI并修复tokenizer manager中的bug。
建议CI维护者和测试工程师精读此PR,重点关注轻量级OTLP收集器的设计、测试优化技巧以及安全绑定实践,以借鉴于其他基础设施测试中。
作者 hnyls2002 · 合并时间 2026-04-01 19:26
修复H200 GPU上会话控制测试的CI稳定性,通过继承CustomTestCase并禁用CUDA图优化。
该PR值得快速浏览,重点关注其如何通过禁用CUDA图优化解决硬件特定数值差异问题。对于涉及会话控制或CUDA图优化的测试,可借鉴此方法确保计算路径一致性。
作者 dougyster · 合并时间 2026-04-01 11:18
修复CI失败分析脚本,仅使用最近运行数据避免旧runner干扰,并添加失败job列表用于调试。
建议负责CI基础设施或监控的工程师精读此PR,重点关注数据范围缩小的设计权衡(如何平衡历史覆盖与性能),以及新增失败记录功能的实现细节,以借鉴于类似监控脚本优化。
作者 CatherineSue · 合并时间 2026-04-01 09:22
修复gRPC服务器导入错误链,避免真实异常被屏蔽,提升调试体验。
该PR变更简单直接,适合快速review;对于理解Python异常链和错误处理最佳实践有参考价值,值得关注错误消息设计的清晰性。