Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 14:40 同步状态:空闲 下次计划:2026-06-07 15:40

PR 列表

更多筛选
2026-04-21
基础设施 重要性 2.42 洞察度 1.00

更新 CODEOWNERS 文件,为 docs 和 docs_new 目录添加文档负责人。

该 PR 变更简单,无需精读。对于技术管理者,可以关注其作为文档维护流程规范化的一个步骤。对于工程师,只需知晓文档目录的代码所有者已更新即可。

缺陷修复 重要性 6.24 洞察度 5.00

修复 CUDA Graph 推测解码扩展中隐藏状态更新逻辑,防止批次过大时内存访问越界。

建议精读该 PR,重点关注 `can_cuda_graph` 分支的设计,它展示了在 CUDA Graph 优化路径中处理运行时条件的模式。同时,注意作者在 PR 描述中提出的隐藏状态逻辑疑虑,这可能指向未来需要改进的设计决策。

功能 重要性 7.10 洞察度 5.00

为EAGLE推测解码工作者添加从磁盘和IPC更新权重的支持。

建议技术管理者关注此PR以理解推测解码模块的权重更新扩展。工程师可精读`multi_layer_eagle_worker_v2.py`中的循环更新逻辑,学习如何处理多步骤草案运行器;同时,注意review中讨论的参数传递问题,确保类型安全,并关注后续测试补充。

#22954 [sgl] multilayereagleworkerv2 fix

原始 PR · 作者 2022tgoel · 合并时间 2026-04-21 07:22

缺陷修复 重要性 5.20 洞察度 4.00

修复多层级EAGLE推测解码中预填充和解码阶段token池引用不一致的问题。

该PR值得快速浏览,重点关注token池引用一致性的设计决策。虽然变更小,但揭示了在多层推测解码中管理状态(如token池)的常见陷阱,对于理解EAGLE架构和避免类似bug有借鉴意义。

#23219 [AMD] Enable MTP for GLM-5-mxfp4 model

原始 PR · 作者 1am9trash · 合并时间 2026-04-21 07:09

缺陷修复 重要性 7.06 洞察度 5.00

修复 GLM-5-MXFP4 模型在 quark 量化下 MTP 层权重加载的形状不匹配问题。

该 PR 值得精读,重点关注 DeepSeek NextN 模型初始化中量化配置的动态处理策略,以及 `ReplicatedLinear` 与 `nn.Linear` 在权重加载上的设计差异。建议结合 quark 量化模块的文档,理解 FP4-packed 格式的兼容性要求。

文档 重要性 8.75 洞察度 4.00

将独立文档仓库迁移至主仓库,新增 Mintlify 文档站点。

该 PR 值得快速浏览以了解新文档结构和交互式组件设计,但无需深入代码分析。建议关注 docs_new/ 目录的组织方式、CI 集成以及如何利用 Mintlify 提升文档可维护性。

测试 重要性 4.29 洞察度 4.00

移除多LoRA测试中不稳定的全None批次,修复CI随机失败。

该PR变更简单直接,适合快速浏览以理解CI测试优化策略。重点关注测试用例设计的合理性:移除不提供特定功能信号的测试,避免CI脆弱性。

功能 重要性 9.18 洞察度 7.00

为EAGLE推测解码添加自适应步数调整,根据接受长度动态切换运行时状态。

建议技术管理者和工程师精读此PR,重点关注:1) 自适应策略的EMA设计和滞后阈值如何平衡响应速度与稳定性;2) 运行时状态切换机制如何实现零开销原子操作,避免CUDA图重捕获;3) CUDA图兼容性检查的风险及潜在解决方案。对于实施类似动态调整的系统具有较高参考价值。

参与讨论