Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-26

#26088 GLM-4.7-Flash: standalone MLA impl and MLA NextN/MTP

原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-05-26 13:17

功能重要性 9.18 洞察度 6.00

GLM-4.7-Flash 独立 MLA 实现及 NextN 推测解码

建议仔细审查 `glm4_moe_lite_nextn.py` 的 `__init__` 是否按 review 建议修复；若未修复，应及时补充。此 PR 的独立模型设计思路值得参考，尤其 MLA NextN 的 zero_allocator 传递模式。建议合并后补充针对模型加载和 pipeline 的测试。

featuremlaspeculative-decoding

#25391 Support DeepSeek V4 DeepEP Waterfill

原始 PR · 作者 xutizhou · 合并时间 2026-05-26 12:04

功能重要性 7.01 洞察度 5.00

DeepSeek V4 整合 DeepEP Waterfill 负载均衡

值得精读。本 PR 展示了如何将 DeepEP Waterfill 负载均衡集成到 DeepSeek V4 的 HashTopK 路由中，设计上保持了 shared-expert fusion 并扩展了 balancer 接口，对其他 MoE 模型的类似集成有参考价值。

deepseekfeatureperformance

#25683 [diffusion] feat: layerwise NVTX markers for Nsight Systems profiling

原始 PR · 作者 mispa-ms · 合并时间 2026-05-26 11:24

功能重要性 9.09 洞察度 7.50

为扩散模型添加逐层NVTX性能标记

值得精读，尤其关注 `maybe_nvtx_range` 的异常安全设计（直接调用 range_push/range_pop 绕过 str.format 陷阱）以及 `ComponentResidencyManager` 中钩子生命周期与组件执行的集成方式。

diffusionfeatureperformance

#26338 Signal CUDA coredumps to tracker issue

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-26 11:21

基础设施重要性 5.07 洞察度 4.00

CUDA coredump 自动上报至追踪 issue

该 PR 设计简洁，通过在现有 action 中增加一个可选步骤实现了有价值的能力，值得推荐。建议关注其使用效果，未来可扩展为更丰富的告警机制。

infraciobservability

#23757 [Intel GPU] Fix incorrect KV-cache page table for local attention when page_size > 1

原始 PR · 作者 ckvermaAI · 合并时间 2026-05-26 11:02

缺陷修复重要性 6.19 洞察度 5.00

修复 XPU attention page_size > 1 时 KV 缓存页表错误

值得精读以理解 page table 粒度转换的重要性，以及局部 attention 的正确前提。关注 reviewer 提出的代码复用建议，可作为后续重构候选。

bugfixintelxpu

#26336 [misc] Update permission

原始 PR · 作者 Fridge003 · 合并时间 2026-05-26 10:50

其他重要性 2.97 洞察度 1.00

新增贡献者 CI 权限配置

可通过，无技术风险。

infra

#26232 [SRT] minor: reuse req input id array for unpadded ids

原始 PR · 作者 mickqian · 合并时间 2026-05-26 08:58

重构重要性 5.05 洞察度 2.00

复用 origin_input_ids 避免重复内存分配

该 PR 属于代码整洁性改进，逻辑简单，风险低，适合快速合入。对于关注性能细节的读者，可借此了解常见请求路径下的小型内存优化手法。

refactorperformance

#26298 Fail-fast on PD subprocess exit and scheduler exception

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-26 07:42

测试重要性 6.20 洞察度 5.00

添加 PD 测试与调度器异常快速终止机制

值得精读。PR 展示了如何在分布式系统中设计安全、可选的中断机制，其 opt-in 设计、测试夹具的 teardown 顺序、环境变量命名规范都可作为内部可靠性改进的参考模板。

testciinfra

第 69 / 357 页 · 共 2850 条

上一页 1 … 67 68 69 70 71 … 357 下一页