#23077 [NPU] [DOC] Update npu best practice docs to match latest code
作者 amote-i · 合并时间 2026-04-18 14:17
更新 Ascend NPU 最佳实践文档,同步最新模型配置和性能数据。
对于 NPU 平台用户或开发者,建议快速浏览此文档更新以了解最新配置;特别关注环境变量设置的最佳实践,以避免潜在问题。
标签列表
聚合结果
作者 amote-i · 合并时间 2026-04-18 14:17
更新 Ascend NPU 最佳实践文档,同步最新模型配置和性能数据。
对于 NPU 平台用户或开发者,建议快速浏览此文档更新以了解最新配置;特别关注环境变量设置的最佳实践,以避免潜在问题。
作者 merrymercy · 合并时间 2026-04-18 04:33
移除已弃用的双稀疏注意力优化特性,清理代码库和相关文档。
建议开发者浏览此 PR 以学习如何安全移除大型特性,重点关注跨文件引用清理和文档更新模式;对于涉及类似弃用代码清理的项目,可参考此次实现步骤。
作者 BBuf · 合并时间 2026-04-17 23:33
修复 ModelOpt B200 diffusion CI 覆盖,优化权重文件选择和 artifact 保存。
建议工程团队精读 `transformer_load_utils.py` 中的 `_prefer_mixed_safetensors_files` 函数,理解其设计权衡:在遇到混合和非混合文件共存时,优先选择混合版本以避免重复张量名问题。同时,关注测试 artifact 保存机制,确保在 CI 中正确配置环境变量以利用此功能。
作者 mickqian · 合并时间 2026-04-17 16:23
更新扩散模型文档,新增API示例、环境变量和平台支持信息。
建议工程师和用户阅读更新后的文档,以了解扩散功能的新API、配置选项和平台支持,重点关注API示例和环境变量部分。
作者 Duyi-Wang · 合并时间 2026-04-17 14:40
新增环境变量 SGLANG_MORI_MOE_MAX_INPUT_TOKENS,在 MoE 计算前截断调度缓冲区以减少填充开销。
该 PR 值得关注其设计权衡:通过环境变量控制性能优化,但牺牲了部分安全性。建议精读 `run_moe_core` 中的截断逻辑,理解其与 `mori_op.combine` 的交互,并注意 review 中提到的潜在改进点。
作者 xdtbynd · 合并时间 2026-04-17 14:34
更新 Ascend NPU 平台文档,修正解聚解码 KV 缓存卸载功能的支持状态。
此 PR 为简单的文档更新,无需深入阅读代码。对于关注 Ascend NPU 平台功能支持状态的开发者,可快速浏览以了解 `--disaggregation-decode-enable-offload-kvcache` 参数的最新支持情况。无需关注设计决策或技术实现。
作者 BBuf · 合并时间 2026-04-17 13:29
更新 diffusion benchmark/profile 技能,强制使用 native SGLang backend 并添加 --no-torch-compile 选项。
建议精读 `bench_diffusion_denoise.py` 的变更,特别是 `build_sglang_cmd` 和 `run_benchmark_once` 函数,以理解 native backend 验证机制;同时关注文档更新,确保正确使用 diffusion skills 进行 benchmark 和测试。
作者 janbernloehr · 合并时间 2026-04-17 11:08
新增协调检查点预取功能,显著减少网络文件系统加载时的冗余 I/O,提升分布式训练加载速度。
该 PR 值得精读,特别是协调预取的设计(如后台线程、节点本地 rank 分配策略)和配置集成方式;关注 `weight_utils.py` 中的实现细节、环境变量配置和测试覆盖,以了解如何在分布式系统中优化 I/O 性能。