#23293 Update CODEOWNERS to include new documentation paths for docs and doc…
原始 PR · 作者 wisclmy0611 · 合并时间 2026-04-21 07:48
更新 CODEOWNERS 文件,为 docs 和 docs_new 目录添加文档负责人。
该 PR 变更简单,无需精读。对于技术管理者,可以关注其作为文档维护流程规范化的一个步骤。对于工程师,只需知晓文档目录的代码所有者已更新即可。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 wisclmy0611 · 合并时间 2026-04-21 07:48
更新 CODEOWNERS 文件,为 docs 和 docs_new 目录添加文档负责人。
该 PR 变更简单,无需精读。对于技术管理者,可以关注其作为文档维护流程规范化的一个步骤。对于工程师,只需知晓文档目录的代码所有者已更新即可。
修复 CUDA Graph 推测解码扩展中隐藏状态更新逻辑,防止批次过大时内存访问越界。
建议精读该 PR,重点关注 `can_cuda_graph` 分支的设计,它展示了在 CUDA Graph 优化路径中处理运行时条件的模式。同时,注意作者在 PR 描述中提出的隐藏状态逻辑疑虑,这可能指向未来需要改进的设计决策。
为EAGLE推测解码工作者添加从磁盘和IPC更新权重的支持。
建议技术管理者关注此PR以理解推测解码模块的权重更新扩展。工程师可精读`multi_layer_eagle_worker_v2.py`中的循环更新逻辑,学习如何处理多步骤草案运行器;同时,注意review中讨论的参数传递问题,确保类型安全,并关注后续测试补充。
修复多层级EAGLE推测解码中预填充和解码阶段token池引用不一致的问题。
该PR值得快速浏览,重点关注token池引用一致性的设计决策。虽然变更小,但揭示了在多层推测解码中管理状态(如token池)的常见陷阱,对于理解EAGLE架构和避免类似bug有借鉴意义。
修复 GLM-5-MXFP4 模型在 quark 量化下 MTP 层权重加载的形状不匹配问题。
该 PR 值得精读,重点关注 DeepSeek NextN 模型初始化中量化配置的动态处理策略,以及 `ReplicatedLinear` 与 `nn.Linear` 在权重加载上的设计差异。建议结合 quark 量化模块的文档,理解 FP4-packed 格式的兼容性要求。
原始 PR · 作者 wisclmy0611 · 合并时间 2026-04-21 06:10
将独立文档仓库迁移至主仓库,新增 Mintlify 文档站点。
该 PR 值得快速浏览以了解新文档结构和交互式组件设计,但无需深入代码分析。建议关注 docs_new/ 目录的组织方式、CI 集成以及如何利用 Mintlify 提升文档可维护性。
原始 PR · 作者 fortunecookiee · 合并时间 2026-04-21 05:43
移除多LoRA测试中不稳定的全None批次,修复CI随机失败。
该PR变更简单直接,适合快速浏览以理解CI测试优化策略。重点关注测试用例设计的合理性:移除不提供特定功能信号的测试,避免CI脆弱性。
原始 PR · 作者 alphabetc1 · 合并时间 2026-04-21 05:25
为EAGLE推测解码添加自适应步数调整,根据接受长度动态切换运行时状态。
建议技术管理者和工程师精读此PR,重点关注:1) 自适应策略的EMA设计和滞后阈值如何平衡响应速度与稳定性;2) 运行时状态切换机制如何实现零开销原子操作,避免CUDA图重捕获;3) CUDA图兼容性检查的风险及潜在解决方案。对于实施类似动态调整的系统具有较高参考价值。
参与讨论