Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

moe 相关 PR

2026-04-18
重构 重要性 8.76 洞察度 6.00

重构MoE Triton runner路径,提取共享助手以消除代码重复。

refactor moe performance run-ci

该PR值得精读,特别是对于涉及MoE模块或代码重构的工程师。关注如何提取共享助手以处理平台差异(CUDA/HIP/XPU)、保持LoRA钩子兼容性以及通过配置管理确保bit-identical的设计决策。

2026-04-17
功能 重要性 4.92 洞察度 5.00

新增环境变量 SGLANG_MORI_MOE_MAX_INPUT_TOKENS,在 MoE 计算前截断调度缓冲区以减少填充开销。

feature moe amd performance documentation

该 PR 值得关注其设计权衡:通过环境变量控制性能优化,但牺牲了部分安全性。建议精读 `run_moe_core` 中的截断逻辑,理解其与 `mori_op.combine` 的交互,并注意 review 中提到的潜在改进点。

2026-04-16

#22773 [Step3p5] Optimize allreduce in MoE layers

作者 yhyang201 · 合并时间 2026-04-16 09:33

性能优化 重要性 7.82 洞察度 6.00

优化 Step3p5 MoE 层 all-reduce 通信,合并操作以提升性能。

performance moe run-ci

该 PR 值得精读,重点关注 all-reduce 合并的设计决策和 LayerCommunicator 的配置优化,对分布式训练和推理中的通信优化有借鉴意义。

#21776 Harden FlashInfer FP4 imports in standard dispatcher

作者 leejnau · 合并时间 2026-04-16 05:54

重构 重要性 5.97 洞察度 5.00

移除标准MoE分发器中冗余的FP4量化导入,明确FlashInfer依赖并统一错误处理。

refactor moe run-ci

该PR值得精读,因为它展示了如何清理死代码和明确依赖关系,特别是在高性能计算库中处理可选依赖时的最佳实践。关注点包括导入逻辑的重构和运行时错误检查的添加,这些设计决策有助于提高代码的健壮性和可维护性。

2026-04-15
性能优化 重要性 7.53 洞察度 5.00

为AMD平台Qwen3.5 MoE模型优化共享专家追加逻辑,用单个Triton内核融合4次内核启动以提升路由性能。

amd performance moe run-ci feature

该PR值得精读,特别是对于关注高性能计算和MoE模型优化的工程师。重点关注新增的Triton内核设计,它展示了如何将多个独立操作融合为单次启动以减少开销,同时保留逐token权重的精度要求。此外,注意其平台特定性(AMD/AITER),这反映了项目中对不同硬件后端的差异化优化策略。

功能 重要性 8.57 洞察度 6.00

为AMD平台Qwen3.5 MoE模型启用共享专家融合,减少内核启动以提升推理效率。

amd feature performance run-ci moe

推荐工程师精读`can_fuse_shared_expert`条件判断和权重映射逻辑,理解AMD特定优化路径;关注FP8兼容性为待办事项,可参考讨论中的技术权衡。

2026-04-14
缺陷修复 重要性 5.00 洞察度 4.00

修复DeepEP后端下共享专家融合与EPLB同时启用时的索引越界问题。

bugfix moe run-ci

该PR值得精读,特别是对于从事MoE层优化和DeepEP后端开发的工程师。关注点:1. 共享专家融合与EPLB调度的冲突机制;2. 条件分支的设计权衡(可读性 vs 代码重复);3. 张量操作对性能的潜在影响。

#22642 Replace all-reduce + dp_scatter with reduce_scatterv for DP attention

作者 YAMY1234 · 合并时间 2026-04-14 12:51

性能优化 重要性 7.00 洞察度 7.00

优化MoE层DP注意力通信,将两阶段通信合并为reduce_scatterv,提升吞吐量7.7%。

performance moe run-ci

该PR值得精读,尤其是对NCCL通信优化和MoE架构感兴趣的工程师,关注`should_use_dp_reduce_scatterv()`的条件设计、`reduce_scatterv`的集成方式以及性能基准的验证方法。