Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-11

#24742 Followup fix for Custom AR V2 in non NVL scenarios

原始 PR · 作者 b8zhong · 合并时间 2026-05-11 07:57

缺陷修复重要性 6.52 洞察度 3.00

修复非 NVLink 场景下 CUDA graph 捕获崩溃

这是一个高信号、低风险的 bugfix，建议尽快合并并 cherry-pick 到涉及 PR #24363 的版本分支。对于 `sglang` 的定制通信层开发者，`capture()` 的 guard 模式值得参考，以确保 future 的类似 `disabled` 分支保持一致。

bugfixrun-ciperformance

#24785 Fix reduce_scatterv producer contract for SUM_LEN

原始 PR · 作者 YAMY1234 · 合并时间 2026-05-11 07:51

缺陷修复重要性 5.84 洞察度 6.00

修复 SUM_LEN 模式下 reduce_scatterv 合约错误

建议精读该 PR 以理解 DP reduce_scatterv 生产合约的关键设计思路。这是一个典型的生产合约 Bug，修复逻辑清晰但影响重大，值得作为分布式推理中通信合约设计的案例研究。

bugfixperformancedeepseek

#24668 [NPU]Documentation update for communications quantization feature

原始 PR · 作者 egvenediktov · 合并时间 2026-05-11 04:49

文档重要性 2.47 洞察度 2.00

NPU 通信量化特性文档补录

可快速合入，无需精读。若需要了解 NPU 通信量化特性，可参考原始 PR #20520 的实现细节。

documentationnpuinfra

#24851 [Session R3] Add routed_experts_start_len for absolute routing slice control

原始 PR · 作者 ByronHsu · 合并时间 2026-05-11 01:04

功能重要性 7.75 洞察度 5.00

添加 routed_experts_start_len 参数，支持路由数据绝对切片控制

值得精读。该 PR 展示了如何通过一个简单的小参数消除多轮推理场景中的线性瓶颈，设计思路清晰：在数据采集点引入切片控制，从源头减少不必要的 gather 和序列化。对于其他类似的数据收集（如 logprobs、hidden states）也可参考此模式。

featureperformancemoe

#24855 [Model] Add MiniCPM-V 4.6 support

原始 PR · 作者 AgainstEntropy · 合并时间 2026-05-11 00:24

功能重要性 9.00 洞察度 5.00

添加 MiniCPM-V 4.6 多模态模型支持

该 PR 结构清晰，目标准确，适合作为多模态模型集成的参考范例。建议仔细审阅视觉 Transformer 实现中的 MiniCPMV_ViTWindowAttentionMerger 设计（包含 CPU 端索引构建以避免 PyTorch 2.10+ 设备检查），以及配置类的 _build_text_config 回退逻辑。由于缺少自动化测试，合并后应尽快补充单元测试和集成测试。

featuremultimodalbenchmark

2026-05-10

#24875 Support Intern-S2-Preview

原始 PR · 作者 RunningLeon · 合并时间 2026-05-10 22:17

功能重要性 7.52 洞察度 4.00

支持 Intern-S2-Preview 多模态模型

该 PR 是 SGLang 添加新模型的典型范例，结构清晰（继承+注册），推荐开发者阅读以了解模型集成流程。可重点关注配置文件、路由注册和多模态处理器的修改模式。

featuremultimodalmoe

#24888 [PD] Unify dsv4 dispatch with swa

原始 PR · 作者 ispobock · 合并时间 2026-05-10 22:01

重构重要性 6.85 洞察度 5.00

统一 DSV4 与 SWA 状态传输，删除冗余逻辑

值得精读：展示了如何通过消除冗余分支简化代码并修复隐式 bug。关注继承关系依赖和通用路径的兼容性保证。

refactorkv-cachebugfix

#24775 Optimize MHC pipeline: DeepGemm, fused norm, fused hc_head

原始 PR · 作者 yhyang201 · 合并时间 2026-05-10 19:03

性能优化重要性 8.72 洞察度 6.00

优化 DSV4 MHC pipeline：融合 kernel、折叠 reduction、利用 DeepGemm

该 PR 展示了高性能 MLA 场景下的 kernel 融合策略，值得研究其折叠 reduction 和使用 `triton.next_power_of_2` 等技巧，但合并前应确保有端到端 benchmark 验证；对于 DSV4 用户，加速效果明显，建议优先合并。

performancedeepseekjit-kernel

第 150 / 357 页 · 共 2850 条

上一页 1 … 148 149 150 151 152 … 357 下一页