Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-29

#23980 docs(cookbook): add H200 (FP4) deployment option for DeepSeek-V4

原始 PR · 作者 Fridge003 · 合并时间 2026-04-29 10:38

功能重要性 5.85 洞察度 3.00

为 DeepSeek-V4 新增 H200 (FP4) 部署选项

值得阅读以了解如何在前端组件中处理不兼容硬件选项的优雅降级。设计上使用 Set 和显示禁用原因对用户友好。如果团队正在编写类似部署 cookbook，可参考此模式。

deepseekdocumentationfeature

#23960 ci: clean up stale-CUDA mooncake variant in install_extra_deps

原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-29 10:32

基础设施重要性 4.00 洞察度 3.00

清理 CI 中淘汰的 mooncake 变体残留

值得合并，解决了一个隐蔽的 CI 环境污染问题。注意后续若有新 mooncake 变体需要更新此逻辑。

cirun-ci

#23974 [AMD] Fix Aiter RMSNorm layout handling

原始 PR · 作者 hubertlu-tw · 合并时间 2026-04-29 10:28

缺陷修复重要性 6.02 洞察度 4.00

修复 Aiter RMSNorm 在 strided 高维输入下的内存访问越界

值得合入。PR 定位准确，修复方案最小且安全，对 AMD 用户有实际价值。建议阅读 `forward_aiter()` 的实现方式，可作为处理不同后端 kernel 约束的参考模式。

amdbugfixaiter

#12771 Add intel_xpu as backend for GptOssForCausalLM, enabled for bf16 models

原始 PR · 作者 ck-intel · 合并时间 2026-04-29 10:21

功能重要性 6.63 洞察度 5.00

为 GptOssForCausalLM 添加 Intel XPU 后端并适配 MoE

本 PR 是典型的硬件后端扩展范例，建议关注其引入的 MoE 偏置和激活扩展点，确认与现有 Triton/Torch 路径对齐。决策上值得讨论的是：bias 的 fp32 处理与 swiglu 激活的条件分支设计。评审者可重点验证偏置存在时数值正确性和激活选择逻辑。

intelxpufeature

#23815 [NPU] Fix DeepEP LL dispatch BF16 flag and skip triton kernel on NPU for Qwen3.5

原始 PR · 作者 iridiumine · 合并时间 2026-04-29 10:19

缺陷修复重要性 6.06 洞察度 4.00

修复 DeepEP 低延迟分发和 Qwen3.5 NPU triton kernel 崩溃

建议合并，修复明确且经 reviewer 确认。建议关注 #22822 对 dispatch 输出类型的自动化改造，以及后续统一环境变量后本 PR 的兼容性。

bugfixnpumoe

#23820 Update XPU Docker runtime stack & hf_home config

原始 PR · 作者 MingxuZh · 合并时间 2026-04-29 10:03

基础设施重要性 5.77 洞察度 4.00

更新 XPU Docker 栈与 CI 配置以修复挂起

该 PR 是典型的基础设施维护，对于关注 XPU 后端和 CI 可靠性的团队成员值得精读。Dockerfile 中驱动安装步骤可作为 XPU 环境的参考。测试清理部分展示了如何消除冗余代码，但需注意显存清理的删除是否会影响测试隔离性。

deepseekrun-cidocker

#23619 [codex] Enable Qwen3-Next MoE all-reduce fusion

原始 PR · 作者 BBuf · 合并时间 2026-04-29 09:11

性能优化重要性 7.60 洞察度 5.00

为 Qwen3-Next 启用 MoE all-reduce 融合

值得精读。此 PR 展示了如何利用已有基础设施（`LayerCommunicator`）快速为新的 MoE 模型启用性能优化，是高性能推理系统中“模式复用”的典型案例。代码改动集中，可读性强，review 中关于死代码的讨论也体现了设计权衡。

performancemoefeature

#23894 Support --model as alias for --model-path in CLI

原始 PR · 作者 merrymercy · 合并时间 2026-04-29 08:23

功能重要性 4.33 洞察度 2.00

支持 --model 作为 --model-path 的 CLI 别名

该 PR 改动简单直接，无需精读。可合并用于提升 CLI 用户体验。

featurerun-ci

第 198 / 357 页 · 共 2850 条

上一页 1 … 196 197 198 199 200 … 357 下一页