Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

documentation 相关 PR

2026-04-18

#23009 Remove deprecated double sparsity feature

作者 merrymercy · 合并时间 2026-04-18 04:33

重构 重要性 8.50 洞察度 3.00

移除已弃用的双稀疏注意力优化特性,清理代码库和相关文档。

refactor documentation npu run-ci

建议开发者浏览此 PR 以学习如何安全移除大型特性,重点关注跨文件引用清理和文档更新模式;对于涉及类似弃用代码清理的项目,可参考此次实现步骤。

2026-04-17

#22955 [Diffusion] Fix ModelOpt B200 CI artifact coverage

作者 BBuf · 合并时间 2026-04-17 23:33

缺陷修复 重要性 6.89 洞察度 5.00

修复 ModelOpt B200 diffusion CI 覆盖,优化权重文件选择和 artifact 保存。

diffusion quant run-ci documentation

建议工程团队精读 `transformer_load_utils.py` 中的 `_prefer_mixed_safetensors_files` 函数,理解其设计权衡:在遇到混合和非混合文件共存时,优先选择混合版本以避免重复张量名问题。同时,关注测试 artifact 保存机制,确保在 CI 中正确配置环境变量以利用此功能。

#23052 [diffusion] doc: update doc

作者 mickqian · 合并时间 2026-04-17 16:23

文档 重要性 3.86 洞察度 3.00

更新扩散模型文档,新增API示例、环境变量和平台支持信息。

documentation diffusion run-ci

建议工程师和用户阅读更新后的文档,以了解扩散功能的新API、配置选项和平台支持,重点关注API示例和环境变量部分。

功能 重要性 4.92 洞察度 5.00

新增环境变量 SGLANG_MORI_MOE_MAX_INPUT_TOKENS,在 MoE 计算前截断调度缓冲区以减少填充开销。

feature moe amd performance documentation

该 PR 值得关注其设计权衡:通过环境变量控制性能优化,但牺牲了部分安全性。建议精读 `run_moe_core` 中的截断逻辑,理解其与 `mori_op.combine` 的交互,并注意 review 中提到的潜在改进点。

#23041 [Docs] [npu] change the feature support status

作者 xdtbynd · 合并时间 2026-04-17 14:34

文档 重要性 1.70 洞察度 1.00

更新 Ascend NPU 平台文档,修正解聚解码 KV 缓存卸载功能的支持状态。

documentation npu run-ci

此 PR 为简单的文档更新,无需深入阅读代码。对于关注 Ascend NPU 平台功能支持状态的开发者,可快速浏览以了解 `--disaggregation-decode-enable-offload-kvcache` 参数的最新支持情况。无需关注设计决策或技术实现。

#23028 [codex] Update diffusion skills

作者 BBuf · 合并时间 2026-04-17 13:29

文档 重要性 5.77 洞察度 4.00

更新 diffusion benchmark/profile 技能,强制使用 native SGLang backend 并添加 --no-torch-compile 选项。

documentation diffusion performance

建议精读 `bench_diffusion_denoise.py` 的变更,特别是 `build_sglang_cmd` 和 `run_benchmark_once` 函数,以理解 native backend 验证机制;同时关注文档更新,确保正确使用 diffusion skills 进行 benchmark 和测试。

#20843 feat: add coordinated checkpoint prefetch for network filesystem loading

作者 janbernloehr · 合并时间 2026-04-17 11:08

功能 重要性 9.13 洞察度 6.00

新增协调检查点预取功能,显著减少网络文件系统加载时的冗余 I/O,提升分布式训练加载速度。

feature performance run-ci documentation

该 PR 值得精读,特别是协调预取的设计(如后台线程、节点本地 rank 分配策略)和配置集成方式;关注 `weight_utils.py` 中的实现细节、环境变量配置和测试覆盖,以了解如何在分布式系统中优化 I/O 性能。