#22309 Use dedicated runner label for deepep 8-GPU tests
作者 alisonshao · 合并时间 2026-04-08 10:58
为DeepEP 8-GPU测试指定专用runner标签,隔离RDMA故障机器。
该PR变更简单,无需深入代码审查,但可作为CI环境隔离的参考案例。关注点:专用runner标签的维护策略和RDMA故障的根因缓解。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 alisonshao · 合并时间 2026-04-08 10:58
为DeepEP 8-GPU测试指定专用runner标签,隔离RDMA故障机器。
该PR变更简单,无需深入代码审查,但可作为CI环境隔离的参考案例。关注点:专用runner标签的维护策略和RDMA故障的根因缓解。
作者 hnyls2002 · 合并时间 2026-04-08 09:54
修复暂停感知权重更新锁中的TOCTOU竞态条件,确保并发安全。
该PR值得精读,展示了并发编程中TOCTOU竞态的典型修复模式。关注点:1)如何在锁范围内保持状态一致性;2)条件锁与writer锁的协同使用;3)从死锁修复到竞态修复的演进。对于涉及暂停/恢复机制的开发者有参考价值。
作者 mickqian · 合并时间 2026-04-08 09:46
修复FastAPI弃用警告并统一多模态编码器参数命名,提升日志清晰度。
建议快速浏览以了解代码清理实践,重点关注json_response.py的重构设计,但整体变更较小,无需深入精读。
作者 Qiaolin-Yu · 合并时间 2026-04-08 09:43
将Eagle推测解码测试从beta版切换至EAGLE3版本,更新模型和配置。
该PR值得关注EAGLE3推测解码功能的测试验证策略。建议开发团队: 1. 关注测试阈值从0.22到0.7的大幅调整背后的性能预期变化。 2. 检查新增的启动参数(--dtype=float16、--chunked-prefill-size)是否与EAGLE3的设计文档一致。 3. 考虑是否需要补充其他测试场景来全面验证EAGLE3功能。 4. 由于缺乏review讨论,建议在后续相关PR中加强技术讨论和文档记录。
作者 maocheng23 · 合并时间 2026-04-08 09:32
修复调度器暂停模式下IPC权重更新时的写锁死锁问题。
该PR值得关注,特别是对于处理并发控制和调度器状态管理的开发者。虽然变更较小,但展示了在复杂并发场景下如何安全地绕过锁机制的设计思路。建议仔细阅读update_weights_from_ipc函数的实现,理解is_pause_cond条件变量与model_update_lock的交互关系。
作者 hnyls2002 · 合并时间 2026-04-08 09:07
优化CI工作流,仅在测试失败时上传CUDA coredump,减少资源浪费。
此PR变更简单但有效,值得CI维护工程师关注以了解优化实践;对于一般开发者,可快速浏览确认变更覆盖范围,无需深入代码解析。
作者 Kangyan-Zhou · 合并时间 2026-04-08 08:04
撤销 H200/B200 夜间测试模型更新,恢复至先前配置。
该 PR 是一个简单的 revert 操作,建议快速审查以确保没有意外副作用,无需深入技术分析。但应关注是否后续有替代 PR 来解决原始问题,并监控 CI 稳定性。
作者 dougyster · 合并时间 2026-04-08 07:29
迁移CI测试数据集从MGSM-EN到GSM8K,移除外部依赖并调整阈值。
建议CI维护者、测试工程师和关注模型准确性的开发者精读,重点关注阈值校准策略和依赖管理决策;对一般工程师,了解变更背景即可,无需深入代码细节,但可参考如何优化CI稳定性。
参与讨论