执行摘要
添加环境变量配置 KV 传输重叠槽位,提升解码吞吐量。
在PD(Prefill-Decode)解聚服务中,解码工作器需要额外槽位来容纳KV数据以实现传输重叠,从而提升吞吐量。当max_num_reqs > 32时,之前的实现硬编码pre_alloc_size为0,限制了KV传输并发,影响性能。PR body指出:“在PD解聚服务中...多个KV传输应与正在进行的解码执行重叠”,特别是在AMD MI355X等大内存硬件上,该配置性尤其有价值。
该PR变更聚焦于特定性能优化,实现直接,适合需要了解PD解聚模式KV传输机制的工程师精读。建议关注环境变量的使用场景和测试结果,以评估在生产部署中的适用性。
review 中仅有少量讨论,主要来自 hnyls2002 的评论,指出在 model_runner_kv_cache_mixin.py 中导入 envs 时应从模块顶层进行,而不是在函数内部。评论内容为:“Import from top level.”。这个建议关注代码风格和导入最佳实践,可能已在后续 commit “Address review comments” 中被采纳,确保了代码整洁性。
参与讨论