修复 KV 传输指标并统一接口
值得精读,尤其是 `KVTransferMetric` 的抽象设计和 `duration_between` 的安全模式。开发者可借此学习如何在不破坏现有接口的前提下统一异构后端的指标报告。此外,review 中关于预计算长度和避免 `assert` 的建议也值得在日常开发中参考。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 KV 传输指标并统一接口
值得精读,尤其是 `KVTransferMetric` 的抽象设计和 `duration_between` 的安全模式。开发者可借此学习如何在不破坏现有接口的前提下统一异构后端的指标报告。此外,review 中关于预计算长度和避免 `assert` 的建议也值得在日常开发中参考。
移除测试文件中未使用的导入
这是一个简单的 lint 修复,可以直接合并,无需深入审查。
删除独立 CUDA 13 安装步骤,默认 CUDA 13
该 PR 是日常维护型文档更新,无需深度阅读。但值得关注的是,它标志着 SGLang 默认环境正式切换至 CUDA 13,对于关注 CUDA 版本兼容性的开发者是一个重要信号。
修复扩散模型 CFG 并行中非连续张量通信崩溃
建议合并此 PR,因为它修复了 CPG 并行在 JoyAI 等模型上的功能性崩溃,并带来了显著的性能提升。但在合并前,应评估 review 中提出的 in-place 语义问题——如果调用者依赖原始张量更新,需复制回结果(如 `input_.copy_(contiguous_result)`);若当前所有调用者都不依赖,则可忽略。建议补充一个单元测试用例,覆盖非连续张量输入场景。
原始 PR · 作者 wangfakang · 合并时间 2026-05-06 17:07
解耦 NCCL 注册与分配,支持跨组内存复用
值得精读,尤其关注 C++ 跟踪 + Python 延迟注册的边界设计,以及如何在避免数据复制的同时保持正确性。适合理解对称内存分配器的演进。
为 Grafter 添加端到端测试与日志快照
建议团队关注 review 中的版本兼容性建议并在后续 PR 中修复;`_Grafter` 的设计模式(`GraftTransformInput` 数据类、`_default_transform` 可插拔回调)值得在类似跨进程通信场景中复用。
增强 Grafter 日志:输出张量信息和差异对比
值得合入,为 Grafter 工具提供了关键的调试可见性。建议阅读 `_compare_tensors_quick` 和 `_calc_rel_diff` 的实现,理解其设计思路(内联避免依赖、fp32 统一 dtype)。
dumper grafter 支持 per-call extras 和 dataclass 输入
建议开发者精读此 PR,特别是 GraftTransformInput 的设计模式和 per-call extras 的实现思路,可作为内部调试工具 API 设计的参考。合并前应修复 review 中提出的进程组 rank 问题,否则可能导致静默错误。
参与讨论