Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11

PR 列表

更多筛选 · 已设定
✕ 清空
2026-06-07
缺陷修复 重要性 6.51 洞察度 5.00

修复 DeepSeek V4 DP 注意力 + TP MoE 下 reduce-scatter 问题

该 PR 值得精读,以理解 DeepSeek V4 独特的手写 `_use_tp_moe_gather` 路径以及 DP 注意力与 TP MoE 交互时的数据流问题。对于关注 DeepSeek V4 模型推理或大规模并行训练的工程师有参考价值。建议合并或已合并。

基础设施 重要性 5.43 洞察度 4.00

在 CI 中默认启用异步断言探测

该 PR 值得阅读,尤其是对负责 CI 基础设施和测试策略的工程师。它展示了如何通过环境变量集中管控运行时检查,并在保持零同步开销的前提下扩大验证覆盖。设计上清晰分离了 CUDA/AMD 与 NPU/MUSA 的配置,未来如果 NPU/MUSA 支持 `torch._assert_async`,只需简单添加环境变量即可。

性能优化 重要性 6.80 洞察度 6.00

指数搜索优化 RadixCache.match 减少逐元素比较

值得精读。指数搜索 + 二分查找的模式通用性强,可推广到其他线性扫描场景。PR 对类型兼容性问题处理果断,测试完备,可放心合入。建议后续关注 million-token 级别的实测数据。

重构 重要性 7.95 洞察度 5.00

统一 spec decode KV 分配预留计算并移动 helper

建议精读,因为展示了如何通过集中化计算消除重复逻辑并解决导入循环,是一个教科书级的纯重构案例。特别关注 `pr_fix_toggle.py` 中 revert target 的迁移方式。

重构 重要性 9.08 洞察度 7.00

eager 前向路径通过 CUDA graph 缓冲注册表路由

值得精读,尤其是 extract_buffer 的 None 携带逻辑和 computed slot 暴露策略,以及如何通过参数化构建函数支持不同前向路径。提供了清晰的注释和单元测试。建议部署者评估 decode 延迟并在需要时启用 SGLANG_EAGER_INPUT_NO_COPY。

功能 重要性 7.95 洞察度 6.00

扩展EAGLE spec v2树推理支持page>1+topk>1

建议所有涉及speculative decoding的开发者和reviewer精读。关键设计决策包括:孔状布局理由、前缀复制方案、行宽保护与failure模式选择。值得关注的设计模式:用always-on CPU断言代替难诊断的GPU错误,是防守型编程的良好范例。

参与讨论