#36127 [Model] Add support for moonshotai/Kimi-Audio-7B-Instruct
原始 PR · 作者 tunglinwood · 合并时间 2026-03-11 12:24
新增 Kimi-Audio 语音转文本模型支持,集成 Whisper 编码器与 Qwen2 解码器。
该 PR 值得精读,特别是模型融合逻辑(如 `embed_input_ids` 方法中的音频-文本嵌入处理)和自定义 tokenizer 设计,这些展示了在多模态模型中处理非标准组件的技术权衡。建议关注 review 讨论中的设计决策,如 renderer 适配和处理器简化,以借鉴于类似项目。
参与讨论