#5861 [doc] feat: add NVFP4 QAT documentation
作者 zhangyimi · 合并时间 2026-04-03 14:10
新增NVFP4量化感知训练文档,涵盖FSDP和Megatron后端的配置说明。
该PR值得快速浏览以了解NVFP4 QAT的配置概览,但文档中的两个未解决问题需要后续跟进。建议关注quantization_config_path参数的实际使用情况和模型名称的准确性,以确保文档与代码实现一致。
标签列表
聚合结果
作者 zhangyimi · 合并时间 2026-04-03 14:10
新增NVFP4量化感知训练文档,涵盖FSDP和Megatron后端的配置说明。
该PR值得快速浏览以了解NVFP4 QAT的配置概览,但文档中的两个未解决问题需要后续跟进。建议关注quantization_config_path参数的实际使用情况和模型名称的准确性,以确保文档与代码实现一致。
作者 zhijie-os · 合并时间 2026-03-27 10:07
在 Ascend 950 设备上启用 MXFP8 量化 rollout 支持。
建议关注硬件特定的量化实现细节,如 `restore_mxfp8_weights_for_loading` 和 `apply_mxfp8_transformation_after_loading` 函数的逻辑,这些设计有助于处理权重加载后的转换。对于使用 Ascend 设备的开发者,此 PR 值得精读以了解 MXFP8 量化集成的完整流程。同时,留意 review 中解决的兼容性问题,可作为类似硬件适配的参考。
作者 eternally-z · 合并时间 2026-03-24 13:50
修复 SGLang rollout 在完全异步模式下启用 FP8 量化时的异步生成器错误和配置初始化问题。
该 PR 值得精读,重点关注异步编程模式和配置初始化顺序的设计决策,对于处理混合同步/异步场景有借鉴意义。
作者 jQizhang · 合并时间 2026-03-23 15:53
为Megatron训练管道添加NVFP4 W4A16量化感知训练支持,并通过ModelOpt集成vLLM推理。
建议技术管理者和工程师精读此PR,特别关注`verl/utils/modelopt/`模块中的设计决策,如分布式权重导出器(`QATWeightExporter`)的实现和vLLM补丁机制。此外,review讨论中提到的代码重构点值得学习,以提升代码质量和可维护性。
作者 sophiayyya · 合并时间 2026-03-23 10:18
修复vLLM 0.14/0.15版本中FP8工具与MoE模型的兼容性问题。
值得精读,尤其是学习如何使用`inspect`进行API版本兼容性处理的设计决策,对于处理外部库依赖变化的代码有参考价值。