#5887 [ci] fix: fix machine label for nightly_ascend.yml
作者 yyyy2000 · 合并时间 2026-04-07 09:31
修复 nightly_ascend.yml CI 作业的机器标签配置错误。
该 PR 变更简单,无需精读。对于关注 CI 基础设施或 Ascend NPU 测试的工程师,可快速浏览以了解机器标签的命名规范。
作者 yyyy2000 · 合并时间 2026-04-07 09:31
修复 nightly_ascend.yml CI 作业的机器标签配置错误。
该 PR 变更简单,无需精读。对于关注 CI 基础设施或 Ascend NPU 测试的工程师,可快速浏览以了解机器标签的命名规范。
作者 zhtmike · 合并时间 2026-04-03 22:15
新增基于Diffusers和FSDP的扩散模型训练引擎,支持FlowGRPO算法。
建议技术管理者和工程师精读此PR,重点关注:1. DiffusersFSDPEngine的设计模式,特别是与现有FSDP引擎的异同。2. DiffusionModelBase注册机制如何实现模型扩展性。3. review讨论中的权衡决策,如模型兼容性限制和损失归一化处理。这对于理解扩散模型RL训练架构有重要参考价值。
作者 Jackie2049 · 合并时间 2026-04-03 22:09
修复calculate_debug_metrics在response_mask全为False时的运行时错误。
该PR值得快速浏览,但无需深入精读。关注点在于:1)防御性编程模式:通过早期返回处理无效输入。2)NaN作为无效指标的标准处理方式。对于涉及调试指标或极端采样场景的开发者,了解此修复可避免类似崩溃。
作者 wuxibin89 · 合并时间 2026-04-03 22:07
修复 Megatron critic 模型配置和训练问题,统一配置到 HFModelConfig。
建议技术管理者和工程师精读此 PR,重点关注:配置统一的设计决策如何简化系统架构、critic warmup 逻辑的修复细节、以及 Megatron 引擎中的关键技术权衡。对于用户,应检查并更新现有脚本以避免配置不兼容。
作者 Superjomn · 合并时间 2026-04-03 21:03
修复TRTLLM端到端测试清理步骤中的作业名不匹配问题。
该PR变更简单,无需精读。对于关注CI/CD配置或TRTLLM测试流程的工程师,可以快速浏览以了解作业名更新。没有复杂的设计决策需要关注。
作者 Tjh-UKN · 合并时间 2026-04-03 16:55
集成msprobe精度调试工具到VERL统一性能分析系统,支持Ascend训练侧数据收集。
建议技术管理者和工程师精读此PR,重点关注其如何将外部工具集成到统一分析器框架的设计决策,特别是阶段映射、模型解析和开销管理。值得关注`PrecisionDebuggerProfiler`类的实现和配置统一化方式,可作为类似集成的参考模板。
作者 none0663 · 合并时间 2026-04-03 14:20
新增 Qwen3.5-122B Megatron 启动脚本,支持 32 GPU 大规模 GRPO 训练。
该 PR 对于需要运行 Qwen3.5-122B 或类似大规模模型的工程师值得参考,特别是关注 Megatron 并行配置(如 TP、PP、CP 设置)和模型特定限制(如 GDN 注意力格式)。建议精读脚本中的配置注释,以了解架构权衡和未来优化方向。
作者 zhangyimi · 合并时间 2026-04-03 14:10
新增NVFP4量化感知训练文档,涵盖FSDP和Megatron后端的配置说明。
该PR值得快速浏览以了解NVFP4 QAT的配置概览,但文档中的两个未解决问题需要后续跟进。建议关注quantization_config_path参数的实际使用情况和模型名称的准确性,以确保文档与代码实现一致。
参与讨论