Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-04-28

#23389 [Chore] Remove deadcode in prefill delayer

原始 PR · 作者 jonahbernard · 合并时间 2026-04-28 00:59

重构 重要性 6.53 洞察度 3.00

清除 PrefillDelayer 中不可达代码并替换 **kwargs 为显式参数

值得快速合入,是良好的代码清理实践。可推荐给团队作为 `**kwargs` 重构的范例。

2026-04-27
文档 重要性 3.61 洞察度 2.00

更新 Ascend NPU GGUF 量化文档及支持表格

建议文档维护者根据 review 建议补充 `--load-format gguf` 参数,并确保示例在实际环境中可运行。同时对新增的 GGUF 支持进行端到端验证,避免文档与实现脱节。

#21698 [npu]fix: qwen3-next w8a8 precision bugs

原始 PR · 作者 ranjiewen · 合并时间 2026-04-27 18:14

缺陷修复 重要性 6.79 洞察度 4.00

修复 NPU 上 Qwen3-Next W8A8 精度问题

此 PR 属于**必要且精准的 Bug 修复**,建议尽快合并。核心价值在于揭示了 W8A8 量化模型中 `_override_weight_loader` 的潜在陷阱——当涉及融合投影和多个量化参数时,必须迭代所有相关参数。设计上值得关注的是其遍历参数列表的模式,可推广到其他类似场景作为最佳实践。建议后续添加针对 W8A8 量化参数 loader 覆写的单元测试,以防止回归。

重构 重要性 6.21 洞察度 5.00

清理启动时第三方库噪音警告

值得阅读,尤其是 `hf_transformers_patches.py` 中的日志压制技巧和 `common.py` 中的 API 迁移方法,可作为处理第三方库警告和 transformers 升级的参考模式。

#23824 [NPU] [DOC] Add support new models doc for NPU

原始 PR · 作者 amote-i · 合并时间 2026-04-27 17:13

文档 重要性 7.08 洞察度 3.00

为 NPU 新增新模型支持文档指南

建议 NPU 相关开发者和贡献者阅读此文档,以了解 SGLang 中支持新模型的标准流程和 NPU 适配要点。该文档整合了散落在各处的信息,是入门 NPU 模型支持的优质参考。

功能 重要性 9.18 洞察度 8.00

Whisper 自动语言检测:单次请求完成检测+转录

值得精读。该 PR 展示如何利用 SGLang 的结构化生成(regex)实现多阶段约束解码,将两步过程融合为单次请求。流式处理中的前缀缓冲+惰性发射模式设计精巧。adapter 基类接口设计为未来扩展提供模板。建议关注 `parse_fused_output` 的 fail-strict 策略、预热编译避免抖动、以及特殊令牌剥离时的精准性(只剥离已知 Whisper 令牌,避免破坏用户文本)。

#23817 docs: verify GB300 Pro DeepSeek V4 recipes

原始 PR · 作者 zijiexia · 合并时间 2026-04-27 15:21

文档 重要性 4.73 洞察度 2.00

标记 GB300 Pro DeepSeek V4 配方已验证

可直接合入。团队成员可重点关注 GB300 Pro 的实际测试结果,若后续发现 mem-fraction-static 值需调整,可进一步优化。

#23719 add H100 configs for GLM-4.7-Flash

原始 PR · 作者 BBuf · 合并时间 2026-04-27 15:07

性能优化 重要性 5.53 洞察度 2.00

为 GLM-4.7-Flash 添加 H100 Triton MoE 配置

建议合并,但需同时更新 `supported_triton_versions` 注册 `triton_3_5_1` 目录,或调整配置目录为现有支持版本目录,以确保配置被正常加载。

参与讨论