Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-26
功能 重要性 9.18 洞察度 6.00

GLM-4.7-Flash 独立 MLA 实现及 NextN 推测解码

建议仔细审查 `glm4_moe_lite_nextn.py` 的 `__init__` 是否按 review 建议修复;若未修复,应及时补充。此 PR 的独立模型设计思路值得参考,尤其 MLA NextN 的 zero_allocator 传递模式。建议合并后补充针对模型加载和 pipeline 的测试。

#25391 Support DeepSeek V4 DeepEP Waterfill

原始 PR · 作者 xutizhou · 合并时间 2026-05-26 12:04

功能 重要性 7.01 洞察度 5.00

DeepSeek V4 整合 DeepEP Waterfill 负载均衡

值得精读。本 PR 展示了如何将 DeepEP Waterfill 负载均衡集成到 DeepSeek V4 的 HashTopK 路由中,设计上保持了 shared-expert fusion 并扩展了 balancer 接口,对其他 MoE 模型的类似集成有参考价值。

功能 重要性 9.09 洞察度 7.50

为扩散模型添加逐层NVTX性能标记

值得精读,尤其关注 `maybe_nvtx_range` 的异常安全设计(直接调用 range_push/range_pop 绕过 str.format 陷阱)以及 `ComponentResidencyManager` 中钩子生命周期与组件执行的集成方式。

#26338 Signal CUDA coredumps to tracker issue

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-26 11:21

基础设施 重要性 5.07 洞察度 4.00

CUDA coredump 自动上报至追踪 issue

该 PR 设计简洁,通过在现有 action 中增加一个可选步骤实现了有价值的能力,值得推荐。建议关注其使用效果,未来可扩展为更丰富的告警机制。

重构 重要性 5.05 洞察度 2.00

复用 origin_input_ids 避免重复内存分配

该 PR 属于代码整洁性改进,逻辑简单,风险低,适合快速合入。对于关注性能细节的读者,可借此了解常见请求路径下的小型内存优化手法。

测试 重要性 6.20 洞察度 5.00

添加 PD 测试与调度器异常快速终止机制

值得精读。PR 展示了如何在分布式系统中设计安全、可选的中断机制,其 opt-in 设计、测试夹具的 teardown 顺序、环境变量命名规范都可作为内部可靠性改进的参考模板。

参与讨论