修复多 tokenizer 路径丢失缓存详情
**值得精读**:变更虽小,但展示了多 tokenizer 路径中字段转发的模式,是维护 metrics 一致性的关键修复。可关注同类字段是否还有遗漏。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复多 tokenizer 路径丢失缓存详情
**值得精读**:变更虽小,但展示了多 tokenizer 路径中字段转发的模式,是维护 metrics 一致性的关键修复。可关注同类字段是否还有遗漏。
回退 FA3 升序 CUDA Graph 捕获顺序
该 PR 是紧急回退,值得精读以了解 CUDA Graph 捕获顺序与内存分配的关系。关注后续是否会有更好的修复方案(例如限制捕获批次大小或优化内存池)。
新增 @pyc96 为 Gemma4 文件代码所有者
该 PR 为纯流程性变更,无需精读。
限制load-back预驱逐仅使用full attention pool容量
值得精读,尤其是其设计权衡(避免污染基础接口的哲学)。建议 review 关注 full_available_size 在 SWA 和 HiSparse 分配器中的实现是否完整,以及未来是否有其他路径需要类似修复。
GPTQ量化重构:按scheme/kernel拆分为独立模块
值得精读,尤其是`scheme`/`kernel`分离的设计模式,以及如何通过工厂方法统一不同后端的量化逻辑。对于从事量化或硬件抽象层的工程师,这是一个很好的参考案例。PR讨论中关于移除`is_xxx`检查的要点也体现了架构整洁性追求。
Varlen FA 加速 USPAttention masked 路径,Qwen-Image 推理提速 15%+
该 PR 值得精读,尤其是对从事 Transformer inference 性能优化的工程师。核心设计模式(Triton 融合减少 launch、metadata 预计算复用、显式契约确保兼容性)具有很高的参考价值。新增的测试用例可作为 Triton 内核测试的范例。建议关注后续是否将该模式推广到其他 attention 变体(如 cross-attention、DPO 等)。
原始 PR · 作者 popsiclexu · 合并时间 2026-05-28 20:57
修复 MUSA 启动时 torchada 兼容性问题
建议快速合并,属于紧急平台兼容性修复。
修复 GemmaRMSNorm buffer 存储导致 CUDA Graph 失效
这是一个值得精读的微型实例:演示了 PyTorch 中 `=` 赋值与原地操作在 CUDA Graph 上下文下的关键区别。团队可借鉴此模式审查其他存在 `buffer = expr` 赋值且参与 CUDA Graph 捕获的模块。
参与讨论