Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

feature 相关 PR

2026-04-18

#22869 [diffusion] feat: introduce ltx-2-two-stage device manager

作者 mickqian · 合并时间 2026-04-18 11:04

功能 重要性 8.88 洞察度 6.00

引入LTX-2两阶段设备管理器,优化内存使用和LoRA切换性能。

diffusion lora feature performance

该PR值得精读,尤其是`LTX2TwoStageDeviceManager`类的实现,展示了针对多阶段模型的内存与性能优化设计。关注其模式自动选择策略(基于GPU内存)、CPU快照机制以及review中讨论的代码安全性改进点,这些对理解高性能推理系统的设备管理有较高参考价值。

#22717 [codex] Add flashinfer TRTLLM backend for diffusion NVFP4

作者 BBuf · 合并时间 2026-04-18 09:06

功能 重要性 9.06 洞察度 6.00

为扩散模型NVFP4量化添加FlashInfer TRTLLM后端,提升性能并作为稳定性后备。

feature diffusion quant performance run-ci

该PR值得精读,尤其是`modelopt_quant.py`中的权重处理逻辑和`cuda.py`中的后端选择机制,它们展示了如何在量化核心路径中集成第三方高性能kernel并保持向后兼容。关注FlashInfer shuffle操作的设计决策,以及环境变量缓存清理(cache_clear)的运用,这些对类似功能扩展有借鉴价值。

#21509 [MLX] Support radix cache

作者 yeahdongcn · 合并时间 2026-04-18 07:00

功能 重要性 9.18 洞察度 6.00

为 MLX 后端添加基数缓存,提升共享前缀工作负载的预填充吞吐量。

feature mlx performance kv-cache run-ci

该 PR 值得精读,特别是关注基数缓存与调度器的集成设计、MLX 原生内存管理策略(如自动池大小计算)以及批处理解码的实现权衡。建议工程师在类似后端扩展时参考其模块化设计(如分离 KV 池、缓存类和注意力包装器),但需注意测试覆盖和架构兼容性的不足。

#22342 [AMD] Enable DFLASH speculative decoding on ROCm

作者 andyluo7 · 合并时间 2026-04-18 04:10

功能 重要性 6.58 洞察度 5.00

在 AMD ROCm 平台上启用 DFLASH 推测解码,支持 Triton 注意力后端。

feature amd speculative-decoding run-ci

该 PR 值得精读,特别是 `dflash_worker.py` 中的后端选择逻辑和 `triton_backend.py` 中的掩码防护设计,展示了如何优雅地处理平台差异和边缘情况。关注 ROCm 检测的实现方式及其对默认行为的影响。

2026-04-17
功能 重要性 4.92 洞察度 5.00

新增环境变量 SGLANG_MORI_MOE_MAX_INPUT_TOKENS,在 MoE 计算前截断调度缓冲区以减少填充开销。

feature moe amd performance documentation

该 PR 值得关注其设计权衡:通过环境变量控制性能优化,但牺牲了部分安全性。建议精读 `run_moe_core` 中的截断逻辑,理解其与 `mori_op.combine` 的交互,并注意 review 中提到的潜在改进点。

#19545 feat(observability): add OpenTelemetry tracing for speculative decoding

作者 RichardoMrMu · 合并时间 2026-04-17 14:01

功能 重要性 7.64 洞察度 6.00

为推测解码管道添加OpenTelemetry追踪,覆盖EAGLE和NGRAM工作器的draft、verify和accept阶段。

feature observability speculative-decoding run-ci

建议技术管理者和工程师精读此PR,特别是`req_time_stats.py`中新增的追踪方法设计和`set_time_batch`的使用模式,这些展示了如何将OpenTelemetry集成到高性能推理管道中,同时保持低开销。关注设计决策如`trace_only`参数和事件放置时机,对于构建可观测性功能有借鉴价值。

#22128 Allow piecewise CUDA graph with speculative decoding

作者 narutolhy · 合并时间 2026-04-17 13:39

功能 重要性 7.80 洞察度 6.00

允许分段CUDA图与所有推测解码算法共存,提升推理性能。

speculative-decoding feature performance run-ci

建议工程师精读`piecewise_cuda_graph_runner.py`中的`can_run`方法,理解PCG与推测解码的路径隔离机制;此PR展示了如何通过验证和渐进式修复来移除保守限制,值得学习其设计权衡和测试策略。

#22842 [CPU] Add gemma4_rmsnorm_cpu kernel

作者 blzheng · 合并时间 2026-04-17 13:03

功能 重要性 7.76 洞察度 5.00

新增Gemma 4 RMSNorm CPU内核,并扩展其他归一化内核支持3D输入,修复Xeon CI失败。

sgl-kernel cpu feature run-ci

建议负责CPU内核开发或模型推理优化的工程师精读此PR,重点关注`sgl-kernel/csrc/cpu/norm.cpp`中的3D输入支持设计和`python/sglang/srt/layers/layernorm.py`中的条件调用决策,这些设计模式在优化CPU计算和平衡性能与健壮性时值得借鉴。