#23389 [Chore] Remove deadcode in prefill delayer
原始 PR · 作者 jonahbernard · 合并时间 2026-04-28 00:59
清除 PrefillDelayer 中不可达代码并替换 **kwargs 为显式参数
值得快速合入,是良好的代码清理实践。可推荐给团队作为 `**kwargs` 重构的范例。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 jonahbernard · 合并时间 2026-04-28 00:59
清除 PrefillDelayer 中不可达代码并替换 **kwargs 为显式参数
值得快速合入,是良好的代码清理实践。可推荐给团队作为 `**kwargs` 重构的范例。
更新 Ascend NPU GGUF 量化文档及支持表格
建议文档维护者根据 review 建议补充 `--load-format gguf` 参数,并确保示例在实际环境中可运行。同时对新增的 GGUF 支持进行端到端验证,避免文档与实现脱节。
修复 NPU 上 Qwen3-Next W8A8 精度问题
此 PR 属于**必要且精准的 Bug 修复**,建议尽快合并。核心价值在于揭示了 W8A8 量化模型中 `_override_weight_loader` 的潜在陷阱——当涉及融合投影和多个量化参数时,必须迭代所有相关参数。设计上值得关注的是其遍历参数列表的模式,可推广到其他类似场景作为最佳实践。建议后续添加针对 W8A8 量化参数 loader 覆写的单元测试,以防止回归。
原始 PR · 作者 merrymercy · 合并时间 2026-04-27 18:10
清理启动时第三方库噪音警告
值得阅读,尤其是 `hf_transformers_patches.py` 中的日志压制技巧和 `common.py` 中的 API 迁移方法,可作为处理第三方库警告和 transformers 升级的参考模式。
为 NPU 新增新模型支持文档指南
建议 NPU 相关开发者和贡献者阅读此文档,以了解 SGLang 中支持新模型的标准流程和 NPU 适配要点。该文档整合了散落在各处的信息,是入门 NPU 模型支持的优质参考。
Whisper 自动语言检测:单次请求完成检测+转录
值得精读。该 PR 展示如何利用 SGLang 的结构化生成(regex)实现多阶段约束解码,将两步过程融合为单次请求。流式处理中的前缀缓冲+惰性发射模式设计精巧。adapter 基类接口设计为未来扩展提供模板。建议关注 `parse_fused_output` 的 fail-strict 策略、预热编译避免抖动、以及特殊令牌剥离时的精准性(只剥离已知 Whisper 令牌,避免破坏用户文本)。
标记 GB300 Pro DeepSeek V4 配方已验证
可直接合入。团队成员可重点关注 GB300 Pro 的实际测试结果,若后续发现 mem-fraction-static 值需调整,可进一步优化。
为 GLM-4.7-Flash 添加 H100 Triton MoE 配置
建议合并,但需同时更新 `supported_triton_versions` 注册 `triton_3_5_1` 目录,或调整配置目录为现有支持版本目录,以确保配置被正常加载。
参与讨论