#38405 [Frontend] Add multimodal support to /inference/v1/generate endpoint
作者 nithinvc · 合并时间 2026-04-18 11:31
为解耦推理端点添加多模态支持,实现渲染到生成的零客户端转换。
建议开发者和架构师精读 `vllm/entrypoints/serve/disagg/mm_serde.py` 的序列化实现,关注整数张量处理和Msgpack配置,以及 `tests/entrypoints/serve/disagg/test_serving_multimodal_tokens.py` 的端到端测试设计,以理解多模态数据流的集成方式。