执行摘要
为 SGLang 服务器添加可选的 MFU 相关 Prometheus 指标,以提供 GPU 性能估计。
动机源自issue #19286,SGLang暴露吞吐量/延迟指标但缺少MFU相关的估计性能计数器,而vLLM最近已暴露类似功能(vllm-project/vllm@5cc7c44)。PR body中表述:'目标是添加轻量级、可选的可观测性信号...以便操作员可以派生TFLOPS/带宽趋势...同时保持默认服务行为不变。' 这旨在提供生产环境中的GPU性能监控能力。
建议工程师精读scheduler_metrics_mixin.py中的估计逻辑和metrics_collector.py中的计数器实现,关注门控设计和性能权衡;技术管理者可参考此PR以可选方式扩展可观测性功能的策略。
review中核心讨论包括:
1) 正确性:sufeng-buaa指出log_decode_stats_every_iteration未被调用,可能由rebase引起,作者回应已合并逻辑到report_decode_stats并移除孤方法。
2) 设计:Kangyan-Zhou询问是否重用现有--enable-metrics标志,sufeng-buaa担忧性能开销和指标管理复杂性,称'计算每次批处理仍可能带来开销...如果继续增长,最终可能成为性能问题'。作者回应通过现有标志实现,未新增参数,并创建follow-up issue #19919处理模型结构差异。讨论以保留独立标志和轻量级估计结束,无重大设计变更。
3) 测试:多次CI失败,sufeng-buaa认为是资源限制问题,建议直接合并。
参与讨论