Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-11

#22051 [MUSA][9/N] Add FA3 attention backend support through MATE (MUSA AI Tensor Engine)

原始 PR · 作者 froststeam · 合并时间 2026-04-11 05:18

功能重要性 7.00 洞察度 6.00

修复MUSA GPU的FA3 attention后端支持，集成MATE引擎并修复内核选择逻辑。

此PR值得精读，特别关注MusaFlashAttentionBackend的设计，它展示了如何通过继承和重写集成新硬件后端。建议工程师学习内核选择逻辑的移动（从运行时到初始化）以提升性能，并注意讨论中全球缓冲区和缓存管理的权衡，这些设计决策对多GPU和并发场景有重要启示。

featurejit-kernelrun-ci

#21104 perf: precompute FA3 scheduler_metadata to eliminate per-layer prepare_varlen_num_blocks

原始 PR · 作者 zminglei · 合并时间 2026-04-11 04:57

性能优化重要性 5.00 洞察度 5.00

预计算 FA3 scheduler_metadata 以消除每层 prepare_varlen_num_blocks 内核调用，提升解码吞吐量约 2%。

建议精读此 PR，重点关注 _compute_scheduler_metadata 方法的实现和 CUDA 图路径中的逻辑，以及 review 中讨论的滑动窗口注意力处理不一致问题。设计决策展示了性能优化与向后兼容的权衡，适合学习内核调用减少的技巧。

performancejit-kernelrun-ci

#21222 feat: update ModelExpress metadata API to SourceIdentity-based schema

原始 PR · 作者 AndyDai-nv · 合并时间 2026-04-11 04:45

功能重要性 5.00 洞察度 5.00

更新ModelExpress元数据API以支持基于SourceIdentity的新模式，提升分布式模型加载的鲁棒性。

对于涉及分布式模型加载、ModelExpress集成或远程实例权重加载的开发者，此PR值得精读，重点关注SourceIdentity构建的设计决策、API迁移的权衡，以及错误处理的最佳实践。同时，注意配置字段的正确使用，以避免潜在匹配问题。

featurerun-cimodelexpress

#22465 Update CI_PERMISSIONS.json

原始 PR · 作者 satyamk7054 · 合并时间 2026-04-11 04:43

基础设施重要性 2.97 洞察度 1.00

添加用户 satyamk7054 的 CI 权限配置

建议快速合并，属于常规权限管理。此 PR 不做代码级别精读。

run-cici

#22515 Reduce GPU memory for MoE parallel groups

原始 PR · 作者 ch-wan · 合并时间 2026-04-11 04:23

性能优化重要性 6.00 洞察度 5.00

为MoE并行组禁用pynccl和custom_allreduce，显著减少GPU内存占用。

该PR值得精读，特别是对于关心内存优化和分布式通信设计的工程师。关注点：1. 如何通过禁用不必要通信器节省内存的设计决策；2. `all_reduce`方法中回退路径的守卫逻辑；3. 与历史PR中MoE相关优化的关联（如#21339）。

performancemoerun-ci

#20391 Add offline auto-tuning for LoRA CSGMV kernel

原始 PR · 作者 satyamk7054 · 合并时间 2026-04-11 04:10

功能重要性 9.00 洞察度 6.00

LoRA CSGMV kernel 离线自动调优

LoRA 调优对生产环境有显著收益，建议所有使用 LoRA 的用户关注此 PR。设计上复用了 MoE 调优的模式，是值得参考的框架扩展方式。特别关注 `lora_tuning_config.py` 的版本回退逻辑和最近邻 chunk 选择策略，可复用至未来其他 Triton kernel 的调优。

loraperformancefeature

#22340 Fix multi_layer_eagle_worker_v2 draft extend selection, add chain style multi layer mtp test

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-04-11 03:44

缺陷修复重要性 6.00 洞察度 4.00

修复多层EAGLE草案扩展选择，并添加链式多层MTP测试。

建议工程师关注DraftBackendFactory的使用方式，以及测试中参数设置和错误处理的实现，对于维护推测解码模块有参考价值。

bugfixspeculative-decodingtest

#20067 MiniMax-M2.5 - Support dp attention, dp reduce scatter, FP4 all gather, AR fusion in prepare_attn

原始 PR · 作者 trevor-m · 合并时间 2026-04-11 03:41

功能重要性 6.00 洞察度 5.00

为MiniMax-M2.5模型添加DP注意力支持及相关通信优化，提升高吞吐场景性能。

建议精读`minimax_m2.py`中的`forward_normal`和`forward_prepare`方法，关注DP注意力支持的设计和通信优化标志的集成。同时注意review中关于零令牌处理和分布式正确性的讨论，这些是分布式推理系统的关键设计点。

featureperformancesgl-kernel

第 270 / 357 页 · 共 2850 条

上一页 1 … 268 269 270 271 272 … 357 下一页