#21588 Clean up detokenizer and remove dead multimodal_gen code
作者 merrymercy · 合并时间 2026-03-29 12:44
清理detokenizer管理器并移除未使用的多模态生成代码,引入健康检查请求前缀常量。
建议工程师精读detokenizer_manager.py的清理部分,以学习如何安全移除冗余代码和优化状态管理;同时关注常量引入的设计决策,作为避免硬编码的良好实践。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 merrymercy · 合并时间 2026-03-29 12:44
清理detokenizer管理器并移除未使用的多模态生成代码,引入健康检查请求前缀常量。
建议工程师精读detokenizer_manager.py的清理部分,以学习如何安全移除冗余代码和优化状态管理;同时关注常量引入的设计决策,作为避免硬编码的良好实践。
作者 BBuf · 合并时间 2026-03-29 12:12
对齐扩散基准预设与夜间比较案例,新增Wan2.2-I2V-A14B覆盖并添加预设列表功能。
对于扩散基准测试或夜间比较感兴趣的工程师,建议快速浏览以了解预设对齐细节和新增功能;对于一般用户,可作为参考资料,无需深入分析代码逻辑。
作者 yuan-luo · 合并时间 2026-03-29 12:02
融合GDN kkt和solve_tril操作到单个Triton内核,减少寄存器负担,提升性能约5%。
建议技术管理者和工程师精读此PR,重点关注新融合内核的设计决策、性能权衡以及与FLA项目的对齐方式。对于从事内核优化的开发者,可学习Triton内核融合技巧和寄存器管理策略,同时注意CHUNK_SIZE隐式依赖的风险。
作者 yichiche · 合并时间 2026-03-29 11:28
为 AMD ROCm 平台扩散模型添加 peft>=0.18.0 依赖,解决 transformers 5.x 兼容性问题。
此 PR 变更简单,无需深度精读,但工程师可关注其依赖兼容性管理策略,尤其是在跨平台和版本升级场景中。建议复习相关 CI 测试确保多平台覆盖,并注意依赖配置的维护。
作者 yhyang201 · 合并时间 2026-03-29 10:02
修复 sglang 后端在图像数据集基准测试中的兼容性,确保图像占位符触发 ViT 编码。
该 PR 值得精读,特别是对于理解 sglang 中多模态提示处理的设计决策,如不同后端对 chat template 的应用差异。关注 `create_mm_data_row` 函数中的逻辑拆分,以及如何通过占位符触发 ViT。
作者 yyihuang · 合并时间 2026-03-29 06:57
修复piecewise CUDA graph中qo_indptr计算错误,确保填充令牌不影响因果掩码。
建议工程师精读flashinfer_backend.py中的call_begin_forward方法,关注虚拟请求的设计和避免同步的技巧,这对理解piecewise CUDA graph的优化和索引处理有参考价值。
作者 wenscarl · 合并时间 2026-03-29 06:55
为SGLang添加skip-softmax注意力支持,以加速长上下文推理。
建议技术管理者关注阈值参数在预填充和解码模式下的正确传递逻辑,并验证基准测试的准确性。工程师可精读`nsa_backend.py`中的修改,以理解skip-softmax实现细节和flashinfer集成方式,同时参考PR body中的性能数据评估实际收益。
作者 OrangeRedeng · 合并时间 2026-03-29 04:00
修改多个 CI 工作流以跳过 .md 和 .txt 文件测试,优化 CI 效率。
对于技术管理者,建议快速批准此 PR,因为它优化了 CI 流程且风险低。对于工程师,可以浏览变更以了解如何配置 GitHub Actions 过滤器来跳过非代码文件,但无需深入解析代码逻辑,因为这是机械的配置调整。
参与讨论