Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 16:47 同步状态：空闲下次计划：2026-06-07 17:47

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-31

#20410 [AMD] Add SGLANG_DISAGGREGATION_NUM_PRE_ALLOCATE_REQS env var for configurable KV transfer overlap

原始 PR · 作者 ZhaiFeiyue · 合并时间 2026-03-31 05:37

功能重要性 5.00 洞察度 3.00

添加环境变量配置KV传输重叠槽位，提升解码吞吐量。

该PR变更聚焦于特定性能优化，实现直接，适合需要了解PD解聚模式KV传输机制的工程师精读。建议关注环境变量的使用场景和测试结果，以评估在生产部署中的适用性。

featureperformanceamd

#21209 [Bugfix][NPU] Skip FRACTAL_NZ format for MoE weights with unaligned dimensions

原始 PR · 作者 adityavaid · 合并时间 2026-03-31 04:22

缺陷修复重要性 6.00 洞察度 5.00

修复NPU MoE权重因维度不对齐导致的FRACTAL_NZ格式崩溃，优雅回退到ND格式。

对于NPU开发者和MoE模型用户，此PR值得精读，特别是_is_nz_aligned函数的对齐规则实现和npu_format_cast中的条件回退逻辑，这体现了硬件优化与兼容性的设计权衡。

bugfixnpuquant

#21436 fix nemotron capture for non attention layers

原始 PR · 作者 vedantjh2 · 合并时间 2026-03-31 03:50

缺陷修复重要性 6.00 洞察度 5.00

修复NemotronH混合模型分段CUDA图捕获问题，提升推理性能约17%。

建议关心CUDA图优化、混合模型支持或向后兼容性设计的工程师精读此PR。虽然变更简单（仅2行代码），但展示了在处理多样化模型架构时的设计权衡，值得学习如何维护系统兼容性并优化性能。

bugfixperformancerefactor

#21660 [GLM-V and GLM-4.7] Cast to FP32 before gate projection for GLM model.

原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-03-31 03:25

缺陷修复重要性 5.79 洞察度 5.00

为 GLM 模型的 MoE 门控投影添加 FP32 强制转换，并缓存权重以优化性能。

该 PR 值得精读，尤其是关注其如何平衡数值精度要求与性能优化。关键设计决策包括： 1. 使用 `register_buffer` 和惰性初始化实现权重缓存，避免每次前向传播的转换开销。 2. 通过 FIXME 注释明确标识了已知风险（缓存失效），为后续维护提供上下文。建议关注 `_weight_fp32` 缓存的生命周期管理，以及未来如何扩展以支持动态权重更新。

bugfixmoerun-ci

#20998 [diffusion][doc]: add ring sp performance benchmark page

原始 PR · 作者 ChefWu551 · 合并时间 2026-03-31 01:26

文档重要性 4.00 洞察度 3.00

添加Ring SP性能基准文档页面，提升扩散模型文档可发现性。

建议扩散模型用户或对Ring SP性能感兴趣的开发者阅读此文档，以获取实际性能数据参考；对于核心代码开发者，无需深入阅读，因为不涉及技术实现变更。关注点可放在基准数据的解读和文档结构优化上。

documentationdiffusionperformance

#21383 [diffusion] [NPU] support ring attention on NPU with FA

原始 PR · 作者 Makcum888e · 合并时间 2026-03-31 01:10

功能重要性 7.88 洞察度 6.00

新增NPU Ascend Flash Attention后端，支持ring attention。

建议技术管理者关注此PR，以了解如何为不同平台添加定制attention backend的架构模式。工程师可精读`ascend_fa.py`中的实现，学习如何集成硬件专用操作并遵循抽象基类设计，以及通过review讨论了解代码优化点。

npudiffusionfeature

#20757 [NPU][diffusion]: support parallel decoding of qwen-image

原始 PR · 作者 gxxx-hum · 合并时间 2026-03-31 01:03

功能重要性 6.00 洞察度 7.00

为Qwen-Image VAE解码添加并行支持，降低NPU高分辨率图像生成的峰值内存。

该PR值得精读，特别是对于关注扩散模型推理优化和分布式计算的工程师。建议重点关注： 1. **设计决策**：理解“在子类中特化实现”与“在基类中提供可配置策略”这两种设计路径的权衡，以及最终向后者演进的思路。 2. **内存-延迟权衡**：仔细阅读基准测试数据，明确并行解码为解决OOM所付出的时间代价，这在实际部署中是需要权衡的关键指标。 3. **代码重构技巧**：学习如何通过统一方法签名（移除`return_dict`）来简化调用链、提升代码一致性。 4. **关联变更**：注意`qwen_image.py`中与平台检测相关的修改，虽然与核心功能无关，但反映了项目中对多平台（CUDA/HIP）支持代码的抽象需求。

diffusionnpuperformance

2026-03-30

#18617 [NPU] GLM-5 optimize with fused kernels

原始 PR · 作者 cen121212 · 合并时间 2026-03-30 22:48

性能优化重要性 6.00 洞察度 6.00

优化GLM-5在NPU的推理性能，通过fused kernels和旋转位置嵌入缓存。

建议工程团队精读此PR，重点关注fused kernels的实现细节（如条件分支逻辑）和缓存机制的设计权衡，这些决策对NPU性能优化有借鉴意义。同时，注意review中未解决的维护性问题。

npuperformancedeepseek

第 323 / 358 页 · 共 2857 条

上一页 1 … 321 322 323 324 325 … 358 下一页