在CI中猴子补丁transformers的is_base_mistral函数以避免HuggingFace API速率限制,解决测试失败。
建议快速浏览此PR,了解如何通过猴子补丁避免外部API速率限制问题,特别是处理transformers依赖时的版本控制和环境隔离策略。
SGLang is a high-performance serving framework for large language models and multimodal models.
在CI中猴子补丁transformers的is_base_mistral函数以避免HuggingFace API速率限制,解决测试失败。
建议快速浏览此PR,了解如何通过猴子补丁避免外部API速率限制问题,特别是处理transformers依赖时的版本控制和环境隔离策略。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-03-28 13:12
使用job outputs替换upload/download-artifact,修复CI工作流中的栈溢出错误,简化docker镜像发布。
建议工程师阅读此PR以了解GitHub Actions job outputs的使用场景,特别是在传递短数据时替代artifact的实践,适合CI优化参考。
原始 PR · 作者 jianyingzhu · 合并时间 2026-03-28 12:56
修复 Piecewise CUDA Graph 在启用混合块预填充时的崩溃问题。
对于关注 CUDA Graph 或混合块功能的工程师,建议精读此 PR 以理解 TorchDynamo guard 与 CUDA Graph 捕获的交互。设计决策简单有效,但可以注意代码重复问题以供未来代码优化。
修复 HFRunner 子进程初始化时死亡导致的父进程无限挂起,提升 CI 效率。
该 PR 值得精读,尤其是对于处理多进程通信和故障恢复的场景。关注点:轮询超时值的选择(5 秒)、进程存活检查与队列状态同步的逻辑,以及如何优雅地抛出异常以加速失败检测。
通过零拷贝优化减少多模态张量哈希的CPU峰值内存,提升服务性能。
该PR值得精读,特别是关注零拷贝优化在PyTorch和NumPy中的实现技巧,以及如何通过增量哈希避免大内存分配。设计决策展示了性能与代码简洁性的权衡。
更新 CODEOWNERS 文件,为 transformers.py 添加代码所有者。
此 PR 变更简单,不值得深入技术精读,除非您关注代码所有权管理或需要了解 transformers.py 的维护责任。可快速浏览以确认变更符合团队规范。
原始 PR · 作者 fengyuanyu1 · 合并时间 2026-03-28 10:07
移除sglang-diffusion中冗余的identity预处理函数,使用None表示无需预处理。
建议工程师精读此PR以学习如何优雅地清理冗余代码和改进API设计,重点关注text_encoding.py中None处理的逻辑和类型定义的更新,可作为代码重构的参考案例。
原始 PR · 作者 eitanturok · 合并时间 2026-03-28 09:51
统一TeaCache参数类,移除Wan特定实现,支持动态系数回调。
建议工程师精读此PR,重点关注: - TeaCacheParams类的设计变化,特别是get_coefficients方法和coefficients_callback机制,展示了如何通过回调支持动态系数选择。 - CFG逻辑的简化处理(get_skip_boundaries方法),这对理解扩散模型中的缓存优化和步骤管理有参考价值。 - 单元测试的设计,验证兼容性和回调优先级,可作为类似重构的测试范例。
参与讨论