Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-23

#23492 [CI] /rerun-stage: auto-include wheel build when PR modifies sgl-kernel/

原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-23 02:28

基础设施重要性 5.02 洞察度 4.00

修复 /rerun-stage 命令在修改 sgl-kernel 的 PR 上错误使用 PyPI wheel 的问题，自动包含内核构建。

建议 CI 维护者和经常使用 `/rerun-stage` 命令的工程师仔细阅读此 PR，以理解内核构建的自动包含机制。关注 `scripts/ci/utils/slash_command_handler.py` 中的变更逻辑和 `.github/workflows/pr-test.yml` 中的条件调整，这些设计决策确保了向后兼容性和安全性，对于类似 CI 流程改进有参考价值。

cirun-ci

#23486 docs(cookbook): add Qwen3.6-27B dense variant

原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-23 01:22

文档重要性 5.12 洞察度 3.00

为 Qwen3.6 文档添加 27B 密集变体支持，更新部署配置和模型说明。

该 PR 主要涉及文档更新，对于核心开发者来说，无需深入阅读代码逻辑。但值得关注的是： 1. 部署代码片段中模型配置的结构化设计（嵌套的 `modelConfigs` 对象）展示了如何优雅地支持多变体，可作为类似文档工具的参考。 2. 文档中引用的测试数据（MMMU 结果）与官方数据的差异，可能需要后续澄清或更新，以确保信息准确性。

documentationrun-cifeature

#22702 Support defer_loading field at function level for Chat Completions API

原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-04-23 01:09

功能重要性 7.62 洞察度 6.00

为Chat Completions API添加函数级defer_loading字段支持，实现工具延迟加载和GLM特定扩展。

建议精读此PR，特别是`protocol.py`中的Pydantic模型扩展和序列化逻辑，以学习如何优雅地添加可选字段并控制序列化行为。同时关注`serving.py`中的Anthropic集成方式，理解跨API协议映射的设计权衡。对于涉及协议扩展的项目，此PR提供了处理厂商特定扩展的实用模式。

featurerun-cimodel-gateway

#22509 [NPU]Fix GLM-4.7-Flash failed on NPU

原始 PR · 作者 Todobe · 合并时间 2026-04-23 01:06

缺陷修复重要性 5.60 洞察度 4.00

修复 GLM-4.7-Flash 在 NPU 上因 GPU 优化导致的导入和属性访问失败问题。

该 PR 是典型的硬件兼容性修复，值得快速浏览以了解如何优雅处理跨设备导入和可选属性。重点关注条件导入模式和安全属性访问的设计决策，这些模式在支持多后端时很实用。

bugfixnpudeepseek

#23401 Fix /generate endpoint crash when sampling params contain null values

原始 PR · 作者 cctry · 合并时间 2026-04-23 00:56

缺陷修复重要性 6.05 洞察度 4.00

修复 /generate 端点因采样参数包含 null 值而崩溃的问题。

该 PR 值得快速浏览，重点关注 SamplingParams.__init__ 方法中的空值处理模式。这是一个典型的防御性编程案例，展示了如何在数据入口处统一处理异常输入以提升系统鲁棒性。虽然变更较小，但设计决策（将处理逻辑从调用方移至类内部）体现了良好的模块化思想，值得学习。

bugfixrun-ci

2026-04-22

#22802 [diffusion] [AMD] model: allow AITER backends in Flux 2 pipeline

原始 PR · 作者 avjves · 合并时间 2026-04-22 23:15

功能重要性 5.53 洞察度 6.00

为 Flux 2 扩散模型添加 AMD 设备专用的 AITER 注意力后端支持，修复性能回归。

该 PR 值得精读，因为它展示了如何修复因硬件特定后端遗漏导致的性能回归，并涉及了注意力后端集成的设计决策（如后端支持列表的管理）。关注点包括：Flux 2 模型的后端选择机制、AITER 实现的张量布局约定，以及 review 中关于集成完整性的讨论。

diffusionfeatureamd

#23327 Skip mamba_pool_idx revert for session requests in _get_new_batch_prefill_raw

原始 PR · 作者 shenxiul · 合并时间 2026-04-22 22:28

缺陷修复重要性 5.63 洞察度 4.00

修复调度器中会话请求的Mamba池索引双重释放问题。

该PR值得精读，尤其是对于涉及会话管理和Mamba模型调度的开发者。关注点在于理解会话槽位生命周期与调度器批次管理之间的交互，以及如何通过简单的属性检查避免复杂的资源管理冲突。

bugfixschedulingkv-cache

#23467 fix: dot-boundary match in is_layer_skipped for FP8 modules_to_not_convert

原始 PR · 作者 mickqian · 合并时间 2026-04-22 22:16

缺陷修复重要性 6.65 洞察度 5.00

修复FP8量化配置中模块路径匹配错误，避免因子串误判导致模型加载失败。

该PR值得精读，尤其是 `_module_path_match` 函数的设计展示了如何处理模块路径的精确匹配，避免子串误判，这在大型模型配置管理中是一个常见痛点。关注点包括：点边界匹配的逻辑、后备映射的引入策略、以及为何未采纳简化建议（可能出于可读性或防御性编程考虑）。

bugfixfp8quant

第 222 / 357 页 · 共 2850 条

上一页 1 … 220 221 222 223 224 … 357 下一页