修复pause_generation中由于batch处理不当导致的tensor形状不匹配错误。
建议技术管理者和工程师精读此PR,以理解调度中batch处理的一致性原则。关注pause_generation函数的修改如何与get_next_batch_to_run保持逻辑对齐,以及模拟测试的设计如何隔离核心依赖,这对于维护调度系统的稳定性有参考价值。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复pause_generation中由于batch处理不当导致的tensor形状不匹配错误。
建议技术管理者和工程师精读此PR,以理解调度中batch处理的一致性原则。关注pause_generation函数的修改如何与get_next_batch_to_run保持逻辑对齐,以及模拟测试的设计如何隔离核心依赖,这对于维护调度系统的稳定性有参考价值。
原始 PR · 作者 yang1002378395-cmyk · 合并时间 2026-03-27 22:42
修复扩散模型加载回退失败问题,将RuntimeError改为返回None以实现优雅回退。
对于开发扩散模型模块或处理模型加载逻辑的工程师,此PR值得快速浏览,了解如何优雅处理未注册模型的回退机制,关注_get_config_info函数的错误处理设计。
为 jit_kernel 的 cast 和 fused_qknorm_rope 测试与基准添加 CUDA CI 注册条目。
对于技术管理者,此 PR 无需精读,但值得关注以确保 CI 测试覆盖完整,可作为基础设施变更的参考。工程师可快速浏览以了解 CI 注册机制和 est_time 设置方法,无重大设计决策需要学习。
修复 AMD CI 监控中的 GitHub API 速率限制问题,通过引入共享快照减少重复 API 调用。
建议 CI 维护者、对 GitHub Actions 优化或 CI 监控设计感兴趣的工程师精读此 PR。重点关注共享快照机制如何减少 API 调用、runner fleet 分析的数据模型设计,以及错误处理策略,这些对优化类似基础设施有参考价值。
原始 PR · 作者 yang1002378395-cmyk · 合并时间 2026-03-27 16:40
新增--strict-ports选项,使服务器在端口被占用时立即失败,确保端口分配确定性。
建议精读此PR,因为它展示了在鲁棒性(自动端口选择)和可预测性(严格端口分配)之间的设计权衡。重点关注`_adjust_network_ports`方法的修改和错误处理逻辑,以理解如何优雅地添加配置选项。
原始 PR · 作者 yctseng0211 · 合并时间 2026-03-27 15:59
调整 AMD 4GPU CI 测试的分区配置,从两分区减至单分区。
该 PR 变更简单,适合快速浏览以了解 CI 配置调整。对于团队管理者,可以关注 CI 性能变化;对于工程师,无需深入精读,但可作为 CI 配置管理的参考案例。
修复 CVE-2026-3989 安全漏洞,替换脚本中不安全 pickle 反序列化并添加安全警告。
建议技术管理者精读此 PR 以了解安全漏洞修复策略、性能权衡和团队协作模式;工程师可关注 `SafeUnpickler` 实现细节、性能基准数据,以及后续 msgpack 迁移的计划,从中学习安全设计决策和渐进式修复方法。
将ZMQ sockets默认绑定到localhost,防止未认证远程访问以缓解多个CVE漏洞。
该PR值得精读,因为它展示了通过简单默认值变更来提升系统安全性的有效策略,同时保持了灵活性。重点关注network.py中get_zmq_socket_on_host函数的默认host变更逻辑和文档更新,以及encode_receiver.py中显式host参数的传递方式,这些设计决策揭示了在安全与兼容性之间的权衡。
参与讨论