Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-04-13
documentation 重要性 3.00 洞察度 2.00

更新Ascend NPU文档,扩展Mamba调度策略选项并澄清分层缓存限制。

该PR为常规文档更新,无需深入精读。对于关注Ascend NPU平台或Mamba模型支持的开发者,可快速浏览以了解参数选项的扩展和限制说明。值得注意的设计决策是文档中明确标注了功能限制(如分层缓存不支持Mamba),这有助于提升用户体验和减少支持负担。

documentation 重要性 2.00 洞察度 1.00

更新Ascend NPU文档,澄清三个参数的约束和有效值。

该PR是简单的文档更新,无需精读。对于关注Ascend NPU平台或文档维护的工程师,可快速浏览以了解参数约束的澄清;对于其他开发者,可直接忽略。

#22687 [NPU]qwen3-8b and 32b md bugfix

原始 PR · 作者 Liwansi · 合并时间 2026-04-13 22:20

缺陷修复 重要性 2.00 洞察度 1.00

修复Ascend NPU文档中Qwen3-8B/32B配置的重复参数和环境变量错误。

该PR无需精读,适合快速浏览以了解文档维护实践。关注点:可学习如何保持文档与代码参数同步,但无复杂设计决策。对于NPU平台用户,值得检查相关文档是否还有其他类似错误。

documentation 重要性 2.00 洞察度 2.00

更新Ascend NPU文档,澄清ascend_fuseep与eplb的互斥约束。

该PR为纯文档更新,无需精读代码。建议关注其反映的Ascend NPU平台参数约束,可作为部署参考。

#22697 [NPU] update npu doc

原始 PR · 作者 zhsurpass · 合并时间 2026-04-13 21:55

文档 重要性 2.28 洞察度 2.00

更新 NPU 文档,新增 `--enable-adaptive-dispatch-to-encoder` 参数说明

建议阅读以了解 NPU 文档维护流程和参数表格规范。但该 PR 技术含量低,无需深入精读。

文档 重要性 2.00 洞察度 1.00

更新Ascend NPU后端服务器参数文档,修正默认值和选项描述。

此PR为纯文档更新,无需精读代码。对于关注Ascend NPU后端配置的开发者,建议浏览修改部分以了解最新的默认值和选项,特别是`--tool-call-parser`的选项列表和`--disaggregation-decode-enable-offload-kvcache`的支持状态。

功能 重要性 6.00 洞察度 7.00

为 MiniMax 模型实现融合的张量并行 QK 归一化 JIT 内核,解码性能提升约 4.7%。

该 PR 值得精读,特别是对于关注性能优化、JIT 内核设计和分布式计算的工程师。建议关注以下设计决策: - eps 正确性处理的实现细节,确保数值稳定性。 - 自定义 all reduce v2 框架的扩展方式,如何支持新内核的块数配置。 - 模型集成中的环境变量使用和潜在回退机制,以平衡性能与鲁棒性。 阅读时结合单元测试和基准脚本,以全面理解性能提升和风险点。

功能 重要性 6.00 洞察度 6.00

为扩散模型模块添加稳定扩散3系列模型的原生SGLang后端支持。

该PR值得精读,尤其是设计如何通过配置钩子避免模型特定逻辑侵入共享阶段,展示了可扩展的架构模式。关注点包括:StableDiffusion3PipelineConfig中get_text_encoder_attention_mask和select_vae_weight_files的钩子设计、text_encoder_loader.py中索引提取的通用化实现、以及review中关于代码质量的改进实践。

参与讨论