#24684 Filter non-int token ids in benchmark and observe decode-side bootstrap/alloc metrics
原始 PR · 作者 merrymercy · 合并时间 2026-05-09 02:45
基准测试过滤非整数token ID,并增加解码端指标
建议精读,特别是新增的解码端指标逻辑,可作为类似观测扩展的参考。同时 review 中的建议值得采纳,以提高鲁棒性。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 merrymercy · 合并时间 2026-05-09 02:45
基准测试过滤非整数token ID,并增加解码端指标
建议精读,特别是新增的解码端指标逻辑,可作为类似观测扩展的参考。同时 review 中的建议值得采纳,以提高鲁棒性。
修复 FA3 varlen 注意力 out 参数传递错误
建议批准合并。该 PR 修复了一个实际运行时的 bug,影响面小,逻辑清晰。后续可考虑为 _call_fa3_kernel 添加单元测试。
更新 LTX 多 GPU 部署文档
对于使用 LTX 模型的用户,建议仔细阅读新增的多 GPU 预设部分。对于前端组件维护者,可参考 `getParallelFlags` 的对象查找模式。
原始 PR · 作者 fanxingran · 合并时间 2026-05-08 17:47
移除 Aiter 后端 FP8 KV upcast,使用原生 FP8 路径
值得精读,尤其关注 FP8 推理优化路径的开发者。核心设计决策是消除隐式 upcast,利用内核原生 FP8 支持,这是 FP8 推理的最佳实践。需确认 aiter 内核的缩放因子处理是否与当前实现一致。
AMD扩散模型RMSNorm替换为aiter内核,加速30%
值得合并,改动清晰且风险可控。建议作者后续添加单元测试以覆盖 `forward_aiter` 的各种输入情况(包括 fp32 回退、残差分支、非连续张量等),确保长期维护性。该 PR 展示了如何在后端利用专用算子库(aiter)替换通用实现,是良好的微优化案例。
原始 PR · 作者 yctseng0211 · 合并时间 2026-05-08 17:32
ROCm VAE 解码:时间展开 Conv2D 加速 3.6%
值得阅读学习时间展开的实现技巧和平台抽象层的优化模式。建议后续跟进未采纳的评审建议,增强替换代码的鲁棒性(如声明支持的卷积参数范围)。
刷新 NPU 支持的模型列表
此 PR 属于常规文档维护,适合快速合并。但建议后续在文档中注明模型版本与代码配置的对应关系,或增加自动校验机制。
默认开启 JIT 自定义 AR v2
建议关注此 PR,因为它是默认行为变更,可能影响所有 CUDA 用户的推理性能。尤其是之前依赖原始 all-reduce 实现的用户应测试回归。
参与讨论