Prhub

#21276 Revert "fix: use consistent time denominator for throughput metrics in bench_one_batch_server"

sgl-project/sglang · 作者 ch-wan · 合并时间 2026-03-24 13:14

分析状态 已生成
文件变更 1提交数 1 · 评论 2
代码增减 +2 / -2
test performance bugfix

执行摘要

回滚吞吐量度量计算更改,恢复使用总延迟作为分母。

PR body仅指出回滚PR #19223,未提供具体原因。可能原修复导致度量标准不一致或其他问题,讨论发生在issue #18712中,但详细信息不足。

此PR变更简单,不值得深入精读。建议关注回滚背后的原因,可能涉及度量标准的设计权衡,推荐查阅issue #18712了解详细讨论。

讨论亮点

无直接review讨论。issue评论提到相关讨论在#18712,表明回滚决策可能基于社区反馈或测试问题,但当前PR中无具体讨论内容。

实现拆解

只修改了文件python/sglang/test/bench_one_batch_server_internal.py中的run_one_case函数。关键改动是将input_throughput和output_throughput的计算分母从last_ttft和latency-last_ttft改回latency,恢复原始吞吐量度量公式。其他代码保持不变。

文件 模块 状态 重要度
python/sglang/test/bench_one_batch_server_internal.py test modified 3.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

run_one_case

评论区精华

回滚原因讨论 question

issue 评论提到讨论在 #18712,但 PR 中无具体内容,可能涉及原修复的正确性或设计问题

结论:决策回滚 PR #19223,恢复原始计算方式 · 已解决

风险与影响

回滚可能重新引入PR #19223试图修复的问题,导致吞吐量度量不准确,影响性能测试结果。具体风险在于输入和输出吞吐量计算的分母不一致,可能误导性能分析。

影响仅限于bench_one_batch_server测试的吞吐量计算,对用户和系统无直接影响,但可能影响开发团队对性能基准的解读和优化决策,尤其在vLLM后端测试中。

测试度量不一致 潜在回归

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

PR分析报告:回滚吞吐量度量计算

执行摘要

此PR回滚了PR #19223中对bench_one_batch_server测试吞吐量计算的更改,恢复使用总延迟作为分母,核心影响是测试度量的准确性,决策基于潜在问题回滚,属于常规维护操作。

功能与动机

PR动机是撤销PR #19223的修复,该修复原本旨在使用一致的时间分母(last_ttftlatency-last_ttft)计算吞吐量。回滚原因未在PR body中详述,但issue评论提及讨论在#18712,暗示原修复可能引入度量不一致或其他问题,因此决定回退到原始代码以保持稳定性。

实现拆解

仅修改了文件python/sglang/test/bench_one_batch_server_internal.py中的run_one_case函数。具体变更如下:

  • 原始代码
    python input_throughput = batch_size * input_len / last_ttft output_throughput = batch_size * output_len / (latency - last_ttft)
  • 回滚后代码
    python input_throughput = batch_size * input_len / latency output_throughput = batch_size * output_len / latency
    这恢复了使用总延迟latency作为分母的计算方式,整体吞吐量公式overall_throughput保持不变。

评论区精华

无直接review讨论。issue评论(来自nvjullin)指出:“Discussion is happening at #18712”,这表明回滚决策可能源于外部讨论,但PR本身未提供详细交锋,建议参考关联issue以获取更多上下文。

风险与影响

  • 技术风险:回滚可能重新引入PR #19223试图解决的问题,例如吞吐量度量分母不一致,导致性能测试结果不准确,特别是在vLLM后端场景下,可能误导性能优化工作。
  • 影响范围:直接影响限于内部测试脚本bench_one_batch_server_internal.py,对用户或生产系统无直接影响,但可能影响团队对模型性能的评估和基准测试的可靠性。

关联脉络

  • 直接关联:PR #19223(被回滚的PR)直接关联,原PR修改了相同的测试文件以“修复”吞吐量度量计算,此回滚操作逆转了该变更。
  • 潜在关联:issue #18712可能包含相关讨论,涉及吞吐量度量的设计权衡或测试问题,建议查阅以理解回滚背后的技术决策和更大上下文。近期历史PR多为性能优化、bugfix和CI改进,此PR属于测试维护的小范围变更,未显式关联其他功能演进。

参与讨论