执行摘要
将流式会话正确性测试的轮数从 150 减少到 30 以解决 flakiness。
PR body指出:'GPU floating-point non-determinism causes greedy decoding to diverge on long multi-turn contexts, leading to cascading mismatches',并引用失败的CI运行(链接:https://github.com/sgl-project/sglang/actions/runs/23518261034/job/68455993786?pr=21338)。这解决了测试flakiness问题,提高CI可靠性。
建议快速浏览此PR以理解测试flakiness的缓解策略,但无需深入分析代码逻辑。对于涉及GPU非确定性的测试设计有参考价值,可关注如何在测试中平衡覆盖与稳定性。
该PR没有收到任何review评论,由作者直接合并,表明变更简单且被团队接受,无争议点。
参与讨论