Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-14 16:51 同步状态：空闲下次计划：2026-06-14 17:51

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-31

#21383 [diffusion] [NPU] support ring attention on NPU with FA

原始 PR · 作者 Makcum888e · 合并时间 2026-03-31 01:10

功能重要性 7.88 洞察度 6.00

新增NPU Ascend Flash Attention后端，支持ring attention。

建议技术管理者关注此PR，以了解如何为不同平台添加定制attention backend的架构模式。工程师可精读`ascend_fa.py`中的实现，学习如何集成硬件专用操作并遵循抽象基类设计，以及通过review讨论了解代码优化点。

npudiffusionfeature

#20757 [NPU][diffusion]: support parallel decoding of qwen-image

原始 PR · 作者 gxxx-hum · 合并时间 2026-03-31 01:03

功能重要性 6.00 洞察度 7.00

为Qwen-Image VAE解码添加并行支持，降低NPU高分辨率图像生成的峰值内存。

该PR值得精读，特别是对于关注扩散模型推理优化和分布式计算的工程师。建议重点关注： 1. **设计决策**：理解“在子类中特化实现”与“在基类中提供可配置策略”这两种设计路径的权衡，以及最终向后者演进的思路。 2. **内存-延迟权衡**：仔细阅读基准测试数据，明确并行解码为解决OOM所付出的时间代价，这在实际部署中是需要权衡的关键指标。 3. **代码重构技巧**：学习如何通过统一方法签名（移除`return_dict`）来简化调用链、提升代码一致性。 4. **关联变更**：注意`qwen_image.py`中与平台检测相关的修改，虽然与核心功能无关，但反映了项目中对多平台（CUDA/HIP）支持代码的抽象需求。

diffusionnpuperformance

2026-03-30

#18617 [NPU] GLM-5 optimize with fused kernels

原始 PR · 作者 cen121212 · 合并时间 2026-03-30 22:48

性能优化重要性 6.00 洞察度 6.00

优化GLM-5在NPU的推理性能，通过fused kernels和旋转位置嵌入缓存。

建议工程团队精读此PR，重点关注fused kernels的实现细节（如条件分支逻辑）和缓存机制的设计权衡，这些决策对NPU性能优化有借鉴意义。同时，注意review中未解决的维护性问题。

npuperformancedeepseek

#14162 DeepSeek-R1-0528-w4a8: DeepEP Low Latency Dispatch Adopts FP8 Communication

原始 PR · 作者 xieminghe1 · 合并时间 2026-03-30 22:27

性能优化重要性 6.00 洞察度 5.00

优化 DeepSeek-R1-W4AFP8 模型的 DeepEP 低延迟调度，采用 FP8 通信以降低带宽并提升推理性能。

建议技术管理者和工程师精读此 PR，重点关注新增的 Triton 核函数设计（在 ep_moe/kernels.py 中）及其硬编码权衡、环境变量兼容性处理，以及 review 中提到的未解决疑虑。对于量化优化、硬件特定性能调优和 MOE 调度设计有参考价值。

performancequantdeepseek

#21255 [NPU] fix eagle3 accept rate

原始 PR · 作者 heziiop · 合并时间 2026-03-30 21:58

缺陷修复重要性 6.00 洞察度 4.00

修复NPU Eagle3草稿步骤序列长度更新问题，提升接受率。

建议NPU后端开发者和推测解码功能维护者精读此PR，关注序列长度在草稿步中的管理逻辑，以及`speculative_step_id`的传递方式。设计决策如将步ID作为参数传递值得借鉴，但需验证在复杂场景下的健壮性。

bugfixnpuperformance

#20974 [NPU][Diffusion] fix sp modulate for qwen-image-edit

原始 PR · 作者 gxxx-hum · 合并时间 2026-03-30 21:18

缺陷修复重要性 5.00 洞察度 5.00

修复Qwen图像编辑模型在非CUDA环境下的调制索引处理错误，支持NPU和SP分片。

建议工程团队精读此PR，特别是_modulate函数中的条件分支设计，展示了如何优雅处理不同硬件后端的kernel选择。关注CUDA检测、平台标识使用以及回退机制的实现细节。

bugfixdiffusionnpu

#21682 [diffusion] CI: relax pr-test threshold

原始 PR · 作者 mickqian · 合并时间 2026-03-30 20:23

基础设施重要性 3.00 洞察度 2.00

放松扩散模型PR测试性能阈值，调整CI基准以减少失败率。

这是一个简单的CI配置调整，不值得深入阅读。技术管理者可以关注此次变更背后的CI策略变化，即性能控制从PR测试转向nightly-ci，工程师可了解diffusion模块测试基准的更新。

cidiffusiontest

#21648 [diffusion] feat: enhance overlay mechanism

原始 PR · 作者 mickqian · 合并时间 2026-03-30 19:45

功能重要性 6.00 洞察度 6.00

增强扩散模型overlay机制，优化首次加载性能并支持本地缓存。

建议技术管理者关注此PR的设计决策，特别是overlay机制的集成方式和代码复用策略，以评估维护成本。工程师可精读`python/sglang/utils.py`和`cli/utils.py`的改动，理解如何优化检测逻辑和避免重复代码，值得借鉴其函数重构技巧。

diffusionfeaturerefactor

第 366 / 400 页 · 共 3196 条

上一页 1 … 364 365 366 367 368 … 400 下一页