Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 13:37 同步状态:空闲 下次计划:2026-06-07 14:37

PR 列表

更多筛选
2026-04-27
功能 重要性 9.18 洞察度 8.00

Whisper 自动语言检测:单次请求完成检测+转录

值得精读。该 PR 展示如何利用 SGLang 的结构化生成(regex)实现多阶段约束解码,将两步过程融合为单次请求。流式处理中的前缀缓冲+惰性发射模式设计精巧。adapter 基类接口设计为未来扩展提供模板。建议关注 `parse_fused_output` 的 fail-strict 策略、预热编译避免抖动、以及特殊令牌剥离时的精准性(只剥离已知 Whisper 令牌,避免破坏用户文本)。

#23817 docs: verify GB300 Pro DeepSeek V4 recipes

原始 PR · 作者 zijiexia · 合并时间 2026-04-27 15:21

文档 重要性 4.73 洞察度 2.00

标记 GB300 Pro DeepSeek V4 配方已验证

可直接合入。团队成员可重点关注 GB300 Pro 的实际测试结果,若后续发现 mem-fraction-static 值需调整,可进一步优化。

#23719 add H100 configs for GLM-4.7-Flash

原始 PR · 作者 BBuf · 合并时间 2026-04-27 15:07

性能优化 重要性 5.53 洞察度 2.00

为 GLM-4.7-Flash 添加 H100 Triton MoE 配置

建议合并,但需同时更新 `supported_triton_versions` 注册 `triton_3_5_1` 目录,或调整配置目录为现有支持版本目录,以确保配置被正常加载。

#23712 [Doc]Add msprobe doc in docs_new path

原始 PR · 作者 is-not · 合并时间 2026-04-27 15:06

文档 重要性 4.20 洞察度 2.00

在 docs_new 中添加 MSProbe 调试指南

建议快速合并。此 PR 为团队开发者提供了重要的调试工具文档,评审已通过,技术争议已澄清。对于关注 NPU 调试和模型精度问题的工程师,值得仔细阅读文档中的配置与示例部分。

缺陷修复 重要性 5.75 洞察度 4.00

修复 Kimi-K2.6 Quark MXFP4 加载的两个 bug

值得关注的设计决策:将 prefix 传递逻辑从仅限 ModelSlimConfig 扩展到 QuarkConfig,体现了类似需求应统一处理的模式。packed_modules_mapping 的扩展应逐步迁移到模型类内部声明(见 TODO 注释)。

#23525 Upgrade transformers from 5.5.4 to 5.6.0

原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-27 13:33

缺陷修复 重要性 6.19 洞察度 4.00

升级 transformers 5.6.0 并修复权重键映射

建议开发者在升级后密切关注多模态模型的权重加载日志,确认无 `KeyError`。维护者可以考虑为权重键映射编写单元测试(如检查已知 checkpoint 的键转换正确性),防止未来回归。本 PR 的设计决策——在自定义加载器中手动声明键映射——是处理上游 breaking change 的实用模式,值得类似场景借鉴。

#23343 [FEAT][EPD] support encoder real health

原始 PR · 作者 ZhengWG · 合并时间 2026-04-27 13:21

功能 重要性 6.81 洞察度 4.00

编码器健康检查升级为真实功能验证

值得精读,特别是健康检查何时跳过、模态选择策略以及分布式 TP 一致性处理的权衡。适合作为类似 health check 模式(忙时跳过、最小负载)的参考实现。

参与讨论