#20778 [FlashAttn] Add fused triton kernel for normal_decode_set_metadata
作者 libowen2121 · 合并时间 2026-03-22 15:12
添加融合Triton内核优化normal_decode_set_metadata,提升解码性能。
建议技术管理者和工程师精读此PR,关注Triton内核设计中的优化技巧,如分块处理、掩码使用和专用路径平衡,以及输入验证的最佳实践。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 libowen2121 · 合并时间 2026-03-22 15:12
添加融合Triton内核优化normal_decode_set_metadata,提升解码性能。
建议技术管理者和工程师精读此PR,关注Triton内核设计中的优化技巧,如分块处理、掩码使用和专用路径平衡,以及输入验证的最佳实践。
作者 mickqian · 合并时间 2026-03-22 15:11
修复多个图像扩散模型的准确性问题,通过对齐官方实现和修复序列并行偏差。
建议扩散模型开发者和维护者精读此PR,特别是qwen_image.py和zimage.py中的序列并行处理设计,以及USPAttention的扩展实现,以学习多GPU下注意力机制的优化策略和对齐官方实现的技巧。
作者 hnyls2002 · 合并时间 2026-03-22 13:54
更新SGLang测试编写技能,添加后端无关测试仅用CUDA和优先使用mock的规则。
对于负责编写或维护测试的开发者,值得精读以了解新规则和实践,特别是后端无关测试的CI注册策略和mock使用的权衡。对于其他工程师,可浏览以了解测试策略优化方向。关注的设计决策包括如何平衡测试覆盖与CI资源消耗。
作者 merrymercy · 合并时间 2026-03-22 13:13
修复pr-test工作流中JIT-kernel单元测试的依赖安装配置错误。
该PR变更简单直接,不建议深入阅读,除非您负责CI维护或遇到类似依赖安装问题。可快速浏览patch_excerpt确认配置调整,无需精读代码逻辑。
作者 alphabetc1 · 合并时间 2026-03-22 12:54
删除 utils/common.py 中的死代码,减少噪音并提升可维护性。
该 PR 变更简单直接,适合快速浏览以了解代码清理的最佳实践。对于新贡献者,可以学习如何识别和移除死代码;无需精读,除非关注代码维护流程。
作者 merrymercy · 合并时间 2026-03-22 12:53
移除 PR 测试工作流中的临时 cron 作业 hack。
无需精读此 PR,变更简单明了。对于 CI 配置管理者,可关注以了解基础设施的维护实践,但无复杂设计决策值得学习。
作者 OrangeRedeng · 合并时间 2026-03-20 20:54
将NPU扩散模型CI性能基线TextEncodingStage时间从301ms提升至1200ms,以解决CI测试偶发性超时失败。
该PR变更简单直接,适合快速浏览以了解CI基线调整策略。值得关注的是review中提出的关于性能测试方法论和根本原因分析的讨论,这对维护稳定的CI/CD流程有借鉴意义。
作者 Muqi1029 · 合并时间 2026-03-20 18:09
修复fp8_kernel中scale_step_k计算错误,确保缩放指针正确前进。
对于涉及fp8量化或内核开发的工程师,建议精读以理解共享参数管理的正确实现,尽管代码简单,但展示了在性能与正确性间的权衡决策。
参与讨论