#21276 Revert "fix: use consistent time denominator for throughput metrics in bench_one_batch_server"

原始 PR 作者 ch-wan 合并时间 2026-03-24 13:14 文件变更 1 提交数 1 评论 2 代码增减 +2 / -2

执行摘要

回滚吞吐量度量计算更改，恢复使用总延迟作为分母。

PR body仅指出回滚PR #19223，未提供具体原因。可能原修复导致度量标准不一致或其他问题，讨论发生在issue #18712中，但详细信息不足。

此PR变更简单，不值得深入精读。建议关注回滚背后的原因，可能涉及度量标准的设计权衡，推荐查阅issue #18712了解详细讨论。

讨论亮点

无直接review讨论。issue评论提到相关讨论在#18712，表明回滚决策可能基于社区反馈或测试问题，但当前PR中无具体讨论内容。

实现拆解

只修改了文件python/sglang/test/bench_one_batch_server_internal.py中的run_one_case函数。关键改动是将input_throughput和output_throughput的计算分母从last_ttft和latency-last_ttft改回latency，恢复原始吞吐量度量公式。其他代码保持不变。

文件	模块	状态	重要度
`python/sglang/test/bench_one_batch_server_internal.py`	test	modified	3.0

关键符号

run_one_case

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

回滚原因讨论 question

issue 评论提到讨论在 #18712，但 PR 中无具体内容，可能涉及原修复的正确性或设计问题

结论：决策回滚 PR #19223，恢复原始计算方式 · 已解决

风险与影响

回滚可能重新引入PR #19223试图修复的问题，导致吞吐量度量不准确，影响性能测试结果。具体风险在于输入和输出吞吐量计算的分母不一致，可能误导性能分析。

影响仅限于bench_one_batch_server测试的吞吐量计算，对用户和系统无直接影响，但可能影响开发团队对性能基准的解读和优化决策，尤其在vLLM后端测试中。

测试度量不一致潜在回归

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

PR分析报告：回滚吞吐量度量计算

执行摘要

此PR回滚了PR #19223中对bench_one_batch_server测试吞吐量计算的更改，恢复使用总延迟作为分母，核心影响是测试度量的准确性，决策基于潜在问题回滚，属于常规维护操作。

功能与动机

PR动机是撤销PR #19223的修复，该修复原本旨在使用一致的时间分母（last_ttft和latency-last_ttft）计算吞吐量。回滚原因未在PR body中详述，但issue评论提及讨论在#18712，暗示原修复可能引入度量不一致或其他问题，因此决定回退到原始代码以保持稳定性。

实现拆解

仅修改了文件python/sglang/test/bench_one_batch_server_internal.py中的run_one_case函数。具体变更如下：

原始代码：

input_throughput = batch_size * input_len / last_ttft
output_throughput = batch_size * output_len / (latency - last_ttft)

回滚后代码：
```
input_throughput = batch_size * input_len / latency
output_throughput = batch_size * output_len / latency
```
这恢复了使用总延迟latency作为分母的计算方式，整体吞吐量公式overall_throughput保持不变。

评论区精华

无直接review讨论。issue评论（来自nvjullin）指出：“Discussion is happening at #18712”，这表明回滚决策可能源于外部讨论，但PR本身未提供详细交锋，建议参考关联issue以获取更多上下文。

风险与影响

技术风险：回滚可能重新引入PR #19223试图解决的问题，例如吞吐量度量分母不一致，导致性能测试结果不准确，特别是在vLLM后端场景下，可能误导性能优化工作。
影响范围：直接影响限于内部测试脚本bench_one_batch_server_internal.py，对用户或生产系统无直接影响，但可能影响团队对模型性能的评估和基准测试的可靠性。

关联脉络

直接关联：PR #19223（被回滚的PR）直接关联，原PR修改了相同的测试文件以“修复”吞吐量度量计算，此回滚操作逆转了该变更。
潜在关联：issue #18712可能包含相关讨论，涉及吞吐量度量的设计权衡或测试问题，建议查阅以理解回滚背后的技术决策和更大上下文。近期历史PR多为性能优化、bugfix和CI改进，此PR属于测试维护的小范围变更，未显式关联其他功能演进。

#21276 Revert "fix: use consistent time denominator for throughput metrics in bench_one_batch_server"

执行摘要

回滚吞吐量度量计算更改，恢复使用总延迟作为分母。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论