#21269 Fix sessions with mm inputs
作者 aurickq · 合并时间 2026-03-27 08:38
修复会话中多模态输入的内存清除和偏移调整,恢复视觉会话测试。
建议工程师精读`session_controller.py`中的偏移调整逻辑和测试文件的变更,关注多模态输入在会话中的生命周期管理。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 aurickq · 合并时间 2026-03-27 08:38
修复会话中多模态输入的内存清除和偏移调整,恢复视觉会话测试。
建议工程师精读`session_controller.py`中的偏移调整逻辑和测试文件的变更,关注多模态输入在会话中的生命周期管理。
作者 hnyls2002 · 合并时间 2026-03-27 07:31
简化flush_cache逻辑,移除客户端重试,改用服务器端超时并拒绝并发请求。
建议技术管理者和工程师精读scheduler.py的改动,特别是flush_cache_wrapped和_check_pending_flush函数,以理解并发拒绝和超时处理的设计决策;同时关注测试文件更新,学习如何迁移到新API并确保测试覆盖。
作者 hnyls2002 · 合并时间 2026-03-27 07:26
修复并发执行/rerun-ut命令时机器人重复发布工作流URL的问题。
此PR值得CI维护者和对GitHub Actions优化感兴趣的工程师精读。关注`find_workflow_run_url`函数中匹配逻辑的改进(如何通过test_command唯一标识运行)和评论合并的设计决策(将多步骤反馈整合为单个消息),这些是提升CI用户体验的有效模式。
作者 hnyls2002 · 合并时间 2026-03-27 07:24
修复benchmark在random_input_len=1时生成空提示的bug,防止服务器错误。
这个PR是一个简单的bugfix,变更逻辑直白。对于工程师,如果关心benchmark正确性或CI稳定性,可以快速浏览以了解问题根源。但整体上,无需深入分析设计决策。
作者 Fridge003 · 合并时间 2026-03-27 07:17
回退 Qwen3-next 模型权重加载属性的错误修复,将 _weight_loader 恢复为 weight_loader。
建议工程师关注权重加载测试的覆盖情况,确认回退是否解决了潜在问题;对于技术管理者,需注意此回退可能反映之前修复的不稳定性,值得审视相关测试和验证。
作者 Wenjun7J · 合并时间 2026-03-27 05:44
为flush_cache API添加超时参数,允许在系统繁忙时等待空闲后刷新缓存。
建议阅读python/sglang/srt/managers/scheduler.py中的flush_cache_wrapped和_check_pending_flush方法,了解超时队列设计;同时关注单元测试以验证正确性。对于调度器开发者和API用户,此PR提供了处理异步状态等待的参考模式。
作者 Qiaolin-Yu · 合并时间 2026-03-27 05:40
修复Kimi K2.5在DP注意力+推测解码下因多模态输入嵌入处理导致的启动崩溃。
建议工程师精读此PR,特别关注llama_eagle3.py中forward函数的多模态输入条件处理逻辑,以及assert使用的最佳实践。对于技术管理者,需注意review中指出的潜在风险,并督促后续代码重构以提升清晰度。
作者 satyamk7054 · 合并时间 2026-03-27 05:35
使用torch.addmm融合LoRA torch-native后端操作,提升性能4.4%。
建议技术管理者和工程师精读此PR,关注`torch.addmm`的使用如何通过操作融合提升性能,以及`scalings_cpu`的添加如何避免GPU->CPU同步开销。这是一个典型的性能优化案例,值得学习其设计决策和测试方法,特别是对于涉及GPU计算的场景。
参与讨论