执行摘要
该PR通过为音频视频测试添加确定性温度设置、减少最大令牌数并添加调试打印,修复了测试中的非确定性行为,提高了测试稳定性和可调试性。这是一个低风险的测试维护变更。
功能与动机
动机是解决音频视频测试中的sporadic失败问题。根据PR body,测试未设置温度或种子,导致输出长度非确定性和finish_reason不一致。设置temperature=0.0使生成确定性,减少max_tokens确保模型在完成前达到令牌限制,添加调试打印辅助诊断。
实现拆解
实现集中在文件tests/entrypoints/openai/chat_completion/test_audio_in_video.py:
- 函数
test_online_audio_in_video和test_online_audio_in_video_multi_videos中,在client.chat.completions.create调用添加temperature=0.0和max_tokens=8。
- 将循环变量改为
turn并添加打印语句:print(f"[DEBUG][single-video] turn={turn} finish_reason={choice.finish_reason!r} content={choice.message.content!r} usage={chat_completion.usage}")。
评论区精华
review中,gemini-code-assist[bot]指出初始提交遗漏了max_tokens从16到8的修改,作者AndreasKaratzas迅速回复并修复。讨论焦点是正确性,确保PR描述与实际代码一致。
风险与影响
风险极低:仅修改测试文件,不影响生产代码。调试打印可能增加输出噪声,但限于测试环境。影响限于测试套件,提高音频视频测试的可靠性,减少flaky测试,对用户无直接影响。
关联脉络
与历史PR #38414类似,都旨在修复flaky测试。这表明团队持续关注测试稳定性,特别是在多模态和CI环境中。
参与讨论