Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

performance 相关 PR

2026-04-18

#22869 [diffusion] feat: introduce ltx-2-two-stage device manager

作者 mickqian · 合并时间 2026-04-18 11:04

功能 重要性 8.88 洞察度 6.00

引入LTX-2两阶段设备管理器,优化内存使用和LoRA切换性能。

diffusion lora feature performance

该PR值得精读,尤其是`LTX2TwoStageDeviceManager`类的实现,展示了针对多阶段模型的内存与性能优化设计。关注其模式自动选择策略(基于GPU内存)、CPU快照机制以及review中讨论的代码安全性改进点,这些对理解高性能推理系统的设备管理有较高参考价值。

#22717 [codex] Add flashinfer TRTLLM backend for diffusion NVFP4

作者 BBuf · 合并时间 2026-04-18 09:06

功能 重要性 9.06 洞察度 6.00

为扩散模型NVFP4量化添加FlashInfer TRTLLM后端,提升性能并作为稳定性后备。

feature diffusion quant performance run-ci

该PR值得精读,尤其是`modelopt_quant.py`中的权重处理逻辑和`cuda.py`中的后端选择机制,它们展示了如何在量化核心路径中集成第三方高性能kernel并保持向后兼容。关注FlashInfer shuffle操作的设计决策,以及环境变量缓存清理(cache_clear)的运用,这些对类似功能扩展有借鉴价值。

重构 重要性 8.76 洞察度 6.00

重构MoE Triton runner路径,提取共享助手以消除代码重复。

refactor moe performance run-ci

该PR值得精读,特别是对于涉及MoE模块或代码重构的工程师。关注如何提取共享助手以处理平台差异(CUDA/HIP/XPU)、保持LoRA钩子兼容性以及通过配置管理确保bit-identical的设计决策。

#21509 [MLX] Support radix cache

作者 yeahdongcn · 合并时间 2026-04-18 07:00

功能 重要性 9.18 洞察度 6.00

为 MLX 后端添加基数缓存,提升共享前缀工作负载的预填充吞吐量。

feature mlx performance kv-cache run-ci

该 PR 值得精读,特别是关注基数缓存与调度器的集成设计、MLX 原生内存管理策略(如自动池大小计算)以及批处理解码的实现权衡。建议工程师在类似后端扩展时参考其模块化设计(如分离 KV 池、缓存类和注意力包装器),但需注意测试覆盖和架构兼容性的不足。

2026-04-17
性能优化 重要性 6.12 洞察度 5.00

预计算 GemmaRMSNorm 的 gemma_weight,避免每次前向重复加法开销。

performance run-ci sgl-kernel

该 PR 值得精读,尤其是 `_weight_loader` 的实现和缓冲区管理部分,展示了在 PyTorch 模块中如何安全地预计算并缓存张量,以及如何处理权重加载时的同步问题。关注设计决策:使用 `register_buffer` 缓存非持久化张量,并通过 `weight_loader` 回调确保缓存值与参数同步。

功能 重要性 4.92 洞察度 5.00

新增环境变量 SGLANG_MORI_MOE_MAX_INPUT_TOKENS,在 MoE 计算前截断调度缓冲区以减少填充开销。

feature moe amd performance documentation

该 PR 值得关注其设计权衡:通过环境变量控制性能优化,但牺牲了部分安全性。建议精读 `run_moe_core` 中的截断逻辑,理解其与 `mori_op.combine` 的交互,并注意 review 中提到的潜在改进点。

#22128 Allow piecewise CUDA graph with speculative decoding

作者 narutolhy · 合并时间 2026-04-17 13:39

功能 重要性 7.80 洞察度 6.00

允许分段CUDA图与所有推测解码算法共存,提升推理性能。

speculative-decoding feature performance run-ci

建议工程师精读`piecewise_cuda_graph_runner.py`中的`can_run`方法,理解PCG与推测解码的路径隔离机制;此PR展示了如何通过验证和渐进式修复来移除保守限制,值得学习其设计权衡和测试策略。

#23028 [codex] Update diffusion skills

作者 BBuf · 合并时间 2026-04-17 13:29

文档 重要性 5.77 洞察度 4.00

更新 diffusion benchmark/profile 技能,强制使用 native SGLang backend 并添加 --no-torch-compile 选项。

documentation diffusion performance

建议精读 `bench_diffusion_denoise.py` 的变更,特别是 `build_sglang_cmd` 和 `run_benchmark_once` 函数,以理解 native backend 验证机制;同时关注文档更新,确保正确使用 diffusion skills 进行 benchmark 和测试。