Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 21:09 同步状态:空闲 下次计划:2026-04-19 22:09

PR 列表

已合并 962 · 已分析 962
更多筛选
2026-04-09
性能优化 重要性 6.00 洞察度 5.00

在AMD HIP平台上使用aiter CK layernorm2d内核替代torch实现,减少NSA索引器中的内核启动次数以提升性能。

建议AMD平台开发者精读此PR,重点关注forward_hip()中的条件判断逻辑和dtype处理策略。对于性能敏感项目,可以借鉴这种通过环境变量控制优化路径的设计。同时,注意测试覆盖的完整性,确保所有dtype和平台组合都被验证。

功能 重要性 7.00 洞察度 6.00

将DeepSeek V3/R1的共享专家融合到DeepEP MoE分发路径,作为本地附加专家。

建议技术管理者和核心工程师精读此PR,特别是 `deepep_shared_expert_fusion.py` 和 `deepseek_v2.py` 中的改动。关键设计决策如专家ID重映射策略和topk扩展机制值得关注,对于使用DeepEP的开发者来说,理解这些变更对性能和行为的影响至关重要。

#22307 fix issues for npu docs

作者 amote-i · 合并时间 2026-04-09 16:27

documentation 重要性 2.00 洞察度 1.00

更新 NPU 平台文档,修正参数描述和版本信息。

对于大多数工程师,无需精读此 PR。建议 NPU 平台的用户或负责 NPU 相关开发的工程师快速浏览 `ascend_npu_support_features.md` 的变更,以了解参数选项的更新和功能限制的澄清。重点关注参数默认值和可选值的更新,确保与自己的使用场景一致。

#22429 [NPU]add Qwen3-32b and Qwen3-8b low latency md

作者 Liwansi · 合并时间 2026-04-09 16:18

文档 重要性 3.00 洞察度 2.00

为 NPU 平台添加 Qwen3-32B 和 Qwen3-8B 模型的低延迟配置文档。

对于技术管理者,此 PR 可快速浏览以了解新增的 NPU 配置选项,无需深入代码分析。对于工程师,如果涉及 NPU 部署或优化,值得参考文档中的具体命令和环境设置,注意 review 中提到的清晰度改进点。

#22425 [HiSparse]: Add HiSpares-DSA Model's nightly CI

作者 hzh0425 · 合并时间 2026-04-09 16:00

基础设施 重要性 4.00 洞察度 3.00

新增HiSparse-DSA模型的夜间CI测试,验证GLM-5-FP8在8-GPU H200上的HiSparse功能。

该PR值得CI/测试维护者精读,关注HiSparse配置参数和资源分配策略。设计决策中,将HiSparse测试集成到现有8-GPU套件是合理选择,但需确保资源配置与实际环境匹配。

重构 重要性 5.00 洞察度 4.00

统一prefill-only模型测试目录结构,提升代码维护性和CI覆盖。

建议精读以了解测试组织最佳实践,特别是如何按功能模块(如prefill-only vs input-embedding)划分测试目录。重点关注`test_score_engine.py`和`test_score_api.py`的设计,它们展示了不同API层(引擎vs HTTP)的测试策略和验证方法。

#22414 [diffusion] feat: support FLUX.2-small-decoder

作者 mickqian · 合并时间 2026-04-09 15:53

功能 重要性 5.00 洞察度 4.00

支持 FLUX.2 小解码器的 VAE 配置,扩展扩散模型组件兼容性。

对于从事扩散模型或多模态生成的工程师,建议精读 VAE 配置的扩展设计,了解如何通过添加可选字段来优雅支持模型变体。文档变更也值得关注,以理解组件兼容性矩阵的更新模式和用户指引。

参与讨论