#22789 feat: emit per-iteration forward pass metrics via ZMQ PUB
原始 PR · 作者 KrishnanPrash · 合并时间 2026-05-13 01:28
新增基于 ZMQ PUB 的调度器前向传递指标实时推送
值得精读。关键设计决策:1)使用 IPC 而非 TCP 避免端口冲突和监听安全问题;2)复用 DeviceTimer 而非自行实现 GPU 计时,降低维护成本;3)通过 dp_rank 后缀解决多副本 IPC 冲突;4)waiting_queue 中所有请求视为 prefill 确保下游正确进行 TTFT 估计。建议同步关注下游 Dynamo 对 FPM 的消费逻辑。
参与讨论