Prhub

#21276 Revert "fix: use consistent time denominator for throughput metrics in bench_one_batch_server"

原始 PR 作者 ch-wan 合并时间 2026-03-24 13:14 文件变更 1 提交数 1 评论 2 代码增减 +2 / -2

执行摘要

回滚吞吐量度量计算更改,恢复使用总延迟作为分母。

PR body仅指出回滚PR #19223,未提供具体原因。可能原修复导致度量标准不一致或其他问题,讨论发生在issue #18712中,但详细信息不足。

此PR变更简单,不值得深入精读。建议关注回滚背后的原因,可能涉及度量标准的设计权衡,推荐查阅issue #18712了解详细讨论。

讨论亮点

无直接review讨论。issue评论提到相关讨论在#18712,表明回滚决策可能基于社区反馈或测试问题,但当前PR中无具体讨论内容。

实现拆解

只修改了文件python/sglang/test/bench_one_batch_server_internal.py中的run_one_case函数。关键改动是将input_throughput和output_throughput的计算分母从last_ttft和latency-last_ttft改回latency,恢复原始吞吐量度量公式。其他代码保持不变。

文件 模块 状态 重要度
python/sglang/test/bench_one_batch_server_internal.py test modified 3.0

关键符号

run_one_case

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

回滚原因讨论 question

issue 评论提到讨论在 #18712,但 PR 中无具体内容,可能涉及原修复的正确性或设计问题

结论:决策回滚 PR #19223,恢复原始计算方式 · 已解决

风险与影响

回滚可能重新引入PR #19223试图修复的问题,导致吞吐量度量不准确,影响性能测试结果。具体风险在于输入和输出吞吐量计算的分母不一致,可能误导性能分析。

影响仅限于bench_one_batch_server测试的吞吐量计算,对用户和系统无直接影响,但可能影响开发团队对性能基准的解读和优化决策,尤其在vLLM后端测试中。

测试度量不一致 潜在回归

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论