Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-28

#23389 [Chore] Remove deadcode in prefill delayer

原始 PR · 作者 jonahbernard · 合并时间 2026-04-28 00:59

重构重要性 6.53 洞察度 3.00

清除 PrefillDelayer 中不可达代码并替换 **kwargs 为显式参数

值得快速合入，是良好的代码清理实践。可推荐给团队作为 `**kwargs` 重构的范例。

refactorscheduling

2026-04-27

#23845 [Docs] Update Ascend NPU GGUF quantization documentation

原始 PR · 作者 TheKonka · 合并时间 2026-04-27 22:30

文档重要性 3.61 洞察度 2.00

更新 Ascend NPU GGUF 量化文档及支持表格

建议文档维护者根据 review 建议补充 `--load-format gguf` 参数，并确保示例在实际环境中可运行。同时对新增的 GGUF 支持进行端到端验证，避免文档与实现脱节。

documentationnpuquant

#21698 [npu]fix: qwen3-next w8a8 precision bugs

原始 PR · 作者 ranjiewen · 合并时间 2026-04-27 18:14

缺陷修复重要性 6.79 洞察度 4.00

修复 NPU 上 Qwen3-Next W8A8 精度问题

此 PR 属于**必要且精准的 Bug 修复**，建议尽快合并。核心价值在于揭示了 W8A8 量化模型中 `_override_weight_loader` 的潜在陷阱——当涉及融合投影和多个量化参数时，必须迭代所有相关参数。设计上值得关注的是其遍历参数列表的模式，可推广到其他类似场景作为最佳实践。建议后续添加针对 W8A8 量化参数 loader 覆写的单元测试，以防止回归。

bugfixnpuquant

#23669 Clean up noisy startup warnings from third-party deps

原始 PR · 作者 merrymercy · 合并时间 2026-04-27 18:10

重构重要性 6.21 洞察度 5.00

清理启动时第三方库噪音警告

值得阅读，尤其是 `hf_transformers_patches.py` 中的日志压制技巧和 `common.py` 中的 API 迁移方法，可作为处理第三方库警告和 transformers 升级的参考模式。

refactordocumentationdependencies

#23824 [NPU] [DOC] Add support new models doc for NPU

原始 PR · 作者 amote-i · 合并时间 2026-04-27 17:13

文档重要性 7.08 洞察度 3.00

为 NPU 新增新模型支持文档指南

建议 NPU 相关开发者和贡献者阅读此文档，以了解 SGLang 中支持新模型的标准流程和 NPU 适配要点。该文档整合了散落在各处的信息，是入门 NPU 模型支持的优质参考。

npudocumentation

#22997 [Whisper] Automatic language detection via structured generation

原始 PR · 作者 shenxiul · 合并时间 2026-04-27 15:54

功能重要性 9.18 洞察度 8.00

Whisper 自动语言检测：单次请求完成检测+转录

值得精读。该 PR 展示如何利用 SGLang 的结构化生成（regex）实现多阶段约束解码，将两步过程融合为单次请求。流式处理中的前缀缓冲+惰性发射模式设计精巧。adapter 基类接口设计为未来扩展提供模板。建议关注 `parse_fused_output` 的 fail-strict 策略、预热编译避免抖动、以及特殊令牌剥离时的精准性（只剥离已知 Whisper 令牌，避免破坏用户文本）。

featuremultimodalperformance

#23817 docs: verify GB300 Pro DeepSeek V4 recipes

原始 PR · 作者 zijiexia · 合并时间 2026-04-27 15:21

文档重要性 4.73 洞察度 2.00

标记 GB300 Pro DeepSeek V4 配方已验证

可直接合入。团队成员可重点关注 GB300 Pro 的实际测试结果，若后续发现 mem-fraction-static 值需调整，可进一步优化。

deepseekdocumentation

#23719 add H100 configs for GLM-4.7-Flash

原始 PR · 作者 BBuf · 合并时间 2026-04-27 15:07

性能优化重要性 5.53 洞察度 2.00

为 GLM-4.7-Flash 添加 H100 Triton MoE 配置

建议合并，但需同时更新 `supported_triton_versions` 注册 `triton_3_5_1` 目录，或调整配置目录为现有支持版本目录，以确保配置被正常加载。

performancemoerun-ci

第 204 / 357 页 · 共 2850 条

上一页 1 … 202 203 204 205 206 … 357 下一页