Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-13 17:27 同步状态：空闲下次计划：2026-06-13 18:27

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-09

#22440 Upgrade sglang-torch-profiler-analysis SKILLS

原始 PR · 作者 BBuf · 合并时间 2026-04-09 18:23

重构重要性 5.00 洞察度 6.00

升级sglang-torch-profiler-analysis技能到triage-only工作流，简化剖析分析流程。

该PR值得开发者和性能分析工程师精读，关注triage工作流的设计决策、融合模式注册表（FusionPatternSpec）的引入以及如何简化多阶段剖析分析。对于管理重构和工具链优化的团队，这是一个值得借鉴的案例。

documentationrefactorperformance

#22443 [Doc] Clarify SWA `HybridSWAPoolConfigurator` comments on all-SWA vs hybrid semantics

原始 PR · 作者 hnyls2002 · 合并时间 2026-04-09 18:02

documentation 重要性 3.00 洞察度 4.00

澄清SWA内存池配置器注释，明确全SWA与混合模式语义差异。

该PR值得快速浏览，特别是关注__init__方法中更新后的注释，以理解全SWA与混合模式内存计算的区别。review评论揭示的内存浪费问题值得进一步关注，建议结合model_runner.py代码评估是否需优化。

documentationschedulingrefactor

#22049 [Speculative] Support penalty for spec v2 overlap scheduling

原始 PR · 作者 YMbmzy · 合并时间 2026-04-09 16:59

功能重要性 6.00 洞察度 6.00

为spec v2重叠调度添加惩罚参数支持，修复验证时忽略惩罚的问题。

建议工程师精读此PR以理解推测解码中惩罚参数的设计实现，特别关注惩罚累积和应用的技术权衡，以及如何通过测试验证多种场景。

speculative-decodingfeaturerun-ci

#22424 [AMD] Use aiter CK layernorm2d for LayerNorm to reduce NSA indexer kernel launches

原始 PR · 作者 1am9trash · 合并时间 2026-04-09 16:55

性能优化重要性 6.00 洞察度 5.00

在AMD HIP平台上使用aiter CK layernorm2d内核替代torch实现，减少NSA索引器中的内核启动次数以提升性能。

建议AMD平台开发者精读此PR，重点关注forward_hip()中的条件判断逻辑和dtype处理策略。对于性能敏感项目，可以借鉴这种通过环境变量控制优化路径的设计。同时，注意测试覆盖的完整性，确保所有dtype和平台组合都被验证。

amdperformancejit-kernel

#20089 feat: [1/2] [DeepEP] Fuse shared expert into MoE dispatch under EP

原始 PR · 作者 xutizhou · 合并时间 2026-04-09 16:48

功能重要性 7.00 洞察度 6.00

将DeepSeek V3/R1的共享专家融合到DeepEP MoE分发路径，作为本地附加专家。

建议技术管理者和核心工程师精读此PR，特别是 `deepep_shared_expert_fusion.py` 和 `deepseek_v2.py` 中的改动。关键设计决策如专家ID重映射策略和topk扩展机制值得关注，对于使用DeepEP的开发者来说，理解这些变更对性能和行为的影响至关重要。

featuredeepseekmoe

#22307 fix issues for npu docs

原始 PR · 作者 amote-i · 合并时间 2026-04-09 16:27

documentation 重要性 2.00 洞察度 1.00

更新 NPU 平台文档，修正参数描述和版本信息。

对于大多数工程师，无需精读此 PR。建议 NPU 平台的用户或负责 NPU 相关开发的工程师快速浏览 `ascend_npu_support_features.md` 的变更，以了解参数选项的更新和功能限制的澄清。重点关注参数默认值和可选值的更新，确保与自己的使用场景一致。

documentationnpurun-ci

#22429 [NPU]add Qwen3-32b and Qwen3-8b low latency md

原始 PR · 作者 Liwansi · 合并时间 2026-04-09 16:18

文档重要性 3.00 洞察度 2.00

为 NPU 平台添加 Qwen3-32B 和 Qwen3-8B 模型的低延迟配置文档。

对于技术管理者，此 PR 可快速浏览以了解新增的 NPU 配置选项，无需深入代码分析。对于工程师，如果涉及 NPU 部署或优化，值得参考文档中的具体命令和环境设置，注意 review 中提到的清晰度改进点。

documentationnpuspeculative-decoding

#22425 [HiSparse]: Add HiSpares-DSA Model's nightly CI

原始 PR · 作者 hzh0425 · 合并时间 2026-04-09 16:00

基础设施重要性 4.00 洞察度 3.00

新增HiSparse-DSA模型的夜间CI测试，验证GLM-5-FP8在8-GPU H200上的HiSparse功能。

该PR值得CI/测试维护者精读，关注HiSparse配置参数和资源分配策略。设计决策中，将HiSparse测试集成到现有8-GPU套件是合理选择，但需确保资源配置与实际环境匹配。

run-citesthicache

第 316 / 396 页 · 共 3165 条

上一页 1 … 314 315 316 317 318 … 396 下一页