执行摘要
本PR通过更新Docker中的SGLang补丁和修改路由器配置,修复了RDMA传输超时导致的会话错误中断问题。变更影响CI镜像和部署稳定性,建议相关团队关注配置调整,以提升系统在高负载下的可靠性。
功能与动机
动机源自提交消息"remove failed_sessions.add to prevent rdma session from breaking",旨在处理高负载下PCIe争用引起的RDMA超时,避免误判服务器死亡而中断会话。这解决了内部bug,确保会话处理更稳健。
实现拆解
- Docker模块:更新
docker/patch/latest/sglang.patch,删除failed_sessions.add和相关错误日志,优化MooncakeKVManager中的失败处理。同时升级docker/version.txt至nightly-dev-20260318a。
- Rollout模块:修改
slime/ray/rollout.py中的_start_router函数,添加对PD disaggregation的参数支持并设置disable_circuit_breaker为True,注释解释:"Disable circuit breaker to prevent RDMA transfer timeouts from marking decode workers as dead. Timeouts are transient (PCIe contention under high load) and do not indicate a dead server."
- 清理模块:移除
slime/rollout/generate_hub/下的未使用文件,简化代码库。
评论区精华
无review评论,变更直接合并,表明团队信任作者或变更较紧急。
风险与影响
- 风险:补丁更新可能引入上游SGLang新bug;禁用断路器可能掩盖真正服务器故障;会话失败逻辑调整影响错误恢复。具体风险点在
sglang.patch删除代码和rollout.py配置变更。
- 影响:Docker镜像需更新以获取修复,影响CI流程;路由器行为变更改善高负载稳定性,但需监控潜在问题;移除文件对功能无影响。
关联脉络
关联PR 1743(类似Docker更新)、1751和1765(修改同一rollout.py文件),显示近期趋势是持续优化路由器配置和修复RDMA相关bug,反映团队在提升分布式系统稳定性的努力。
参与讨论