#39344 fix(kimi_k25): resolve media_placeholder_token_id from tokenizer

vllm-project/vllm · 作者 r266-tech · 合并时间 2026-04-12 12:10

分析状态已生成

文件变更 1提交数 4 · 评论 3

代码增减 +24 / -3

bugfix v1 model multi-modality

执行摘要

修复 Kimi-K2.5 多模态推理因媒体占位符 token ID 不匹配导致的崩溃问题。

修复 Kimi-K2.5 多模态推理完全失效的问题（Issue #39261）。当请求包含图像或视频输入时，会因 AssertionError 失败，因为配置中的 media_placeholder_token_id (163605) 与运行时 tokenizer 映射的 <|media_pad|> token ID (163602) 不匹配，导致 PromptReplacement 无法找到目标 token。根本原因是 Kimi-K2.5 是唯一没有提供 tokenizer.json 的主要模型，迫使 transformers 从慢速 tiktoken-based tokenizer 自动转换，这种转换会静默压缩特殊 token ID 的间隙，从而偏移 token ID。

该 PR 值得精读，因为它展示了处理模型配置与运行时 tokenizer 不一致的优雅模式：通过 tokenizer 解析关键 token ID 并动态打补丁配置，同时添加防护检查避免静默失败。关注设计决策：在初始化时解析并缓存 token ID，避免每次调用都查询 tokenizer；使用 logger.warning_once 记录不一致情况，便于调试；添加 unk_token_id 验证确保鲁棒性。

讨论亮点

review 中只有一个核心讨论线程：gemini-code-assist[bot] 指出如果 <|media_pad|> 不在 tokenizer 的词汇表中，convert_tokens_to_ids 会返回 unk_token_id，当前逻辑会错误地使用这个 unk_token_id 作为 media_token_id，可能导致静默失败或不正确行为。建议在解析 token ID 时验证它不是未知 token ID。作者 r266-tech 回应并提交了修复（commit 4aba3c0），添加了 unk_token_id 的防护检查，确保如果 token 不在词汇表中则回退到配置值。

实现拆解

实现方案集中在单个文件 vllm/model_executor/models/kimi_k25.py 中的两个关键修改：1. 在 KimiK25ProcessingInfo.init 方法中，通过 tokenizer.convert_tokens_to_ids("<|media_pad|>") 解析 token ID，并与配置值比较；如果解析值有效（是整数且不等于 unk_token_id）且与配置值不一致，则使用解析值并打补丁到配置中，同时记录警告日志。2. 在 KimiK25MultiModalProcessor._get_prompt_updates 方法中，使用 self.info.media_token_id（已解析的值）替代重新从配置读取，确保整个处理管道使用正确的 token ID。

文件	模块	状态	重要度
`vllm/model_executor/models/kimi_k25.py`	model_executor/models	modified	9.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

KimiK25ProcessingInfo.__init__ KimiK25MultiModalProcessor._get_prompt_updates

评论区精华

处理 tokenizer 返回 unk_token_id 的风险 正确性

gemini-code-assist[bot] 指出如果 <|media_pad|> 不在 tokenizer 词汇表中，convert_tokens_to_ids 会返回 unk_token_id，当前逻辑会错误地使用它作为 media_token_id。

结论：作者添加了防护检查：验证 resolved_token_id 是整数且不等于 tokenizer.unk_token_id（如果存在），否则回退到配置值。 · 已解决

风险与影响

风险较低，但需注意：1. 兼容性风险：修改了 hf_config.media_placeholder_token_id 的值，可能影响依赖此配置的其他代码，但打补丁操作是局部的，且旨在确保一致性。2. 逻辑风险：尽管添加了 unk_token_id 防护，但如果 tokenizer 返回非整数或无效值，逻辑可能仍不完善，但当前检查已覆盖常见情况。3. 性能风险：在初始化时调用 convert_tokens_to_ids 增加了一次 tokenizer 查询，但影响可忽略，因为只发生在模型加载时。

影响范围：1. 用户：修复了 Kimi-K2.5 多模态推理的崩溃问题，使图像/视频输入能正常工作，提升用户体验和模型可用性。2. 系统：确保 Kimi-K2.5 模型在多模态场景下的正确性，避免因 token ID 不匹配导致的断言失败。3. 团队：为 transformers v5 升级提供了支持（如 Issue 评论中 ywang96 提及），解决了特定模型配置与 tokenizer 不一致的通用问题模式。

配置不一致处理 tokenizer 依赖

关联 Issue

#39261 [Bug]: Kimi K2.5 multimodal inference broken — media_placeholder_token_id mismatch with runtime tokenizer

完整报告

执行摘要

修复 Kimi-K2.5 多模态推理因媒体占位符 token ID 不匹配导致的完全失效问题。通过从 tokenizer 动态解析 token ID 并打补丁配置，确保配置与运行时一致，同时添加防护检查避免静默失败。影响范围限于 Kimi-K2.5 模型的多模态功能，是解决 transformers v5 升级中配置不一致问题的关键修复。

功能与动机

问题：Kimi-K2.5 多模态推理（图像/视频输入）完全崩溃，抛出 AssertionError: Failed to apply prompt replacement for mm_items['vision_chunk'][0]。

根本原因：模型配置中的 media_placeholder_token_id 硬编码为 163605，但运行时 tokenizer 将 <|media_pad|> 映射到 163602。这是因为 Kimi-K2.5 缺少 tokenizer.json，transformers v5 在自动转换慢速 tokenizer 时压缩了特殊 token ID 的间隙，导致偏移。

修复目标：确保多模态处理管道使用正确的 token ID，无论上游配置值是否正确。

实现拆解

修改集中在 vllm/model_executor/models/kimi_k25.py 文件：

KimiK25ProcessingInfo.init：
- 新增逻辑解析 token ID：
  python config_token_id = hf_config.media_placeholder_token_id resolved_token_id = tokenizer.convert_tokens_to_ids("<|media_pad|>") is_valid_resolved = isinstance(resolved_token_id, int) and ( tokenizer.unk_token_id is None or resolved_token_id != tokenizer.unk_token_id ) if is_valid_resolved and resolved_token_id != config_token_id: logger.warning_once(...) # 记录警告 media_token_id = resolved_token_id hf_config.media_placeholder_token_id = resolved_token_id # 打补丁 else: media_token_id = config_token_id self.media_token_id = media_token_id
- 关键点：验证解析值不是 unk_token_id，避免静默失败。
KimiK25MultiModalProcessor._get_prompt_updates：
- 将 media_token_id = hf_config.media_placeholder_token_id 替换为 media_token_id = self.info.media_token_id。
- 确保使用已解析的 token ID，避免重新读取可能不正确的配置。

评论区精华

review 中只有一个核心讨论，但具有重要技术洞察：

gemini-code-assist[bot]："There's a potential issue here if <|media_pad|> is not found in the tokenizer's vocabulary. In that case, convert_tokens_to_ids will return the unk_token_id. The current logic will then incorrectly use this unk_token_id as the media_token_id..."

r266-tech 回应："Good catch — added the unk_token_id guard... If <|media_pad|> isn't in the vocab, we now fall back to the config value instead of silently using the unknown token."

决策结论：添加防护检查，确保解析的 token ID 有效（是整数且不等于 unk_token_id），否则回退到配置值。这提升了鲁棒性，避免了潜在的错误传播。

风险与影响

风险：

配置污染：修改 hf_config.media_placeholder_token_id 可能影响其他依赖此配置的代码，但打补丁是局部的，旨在确保一致性。
逻辑边界：防护检查覆盖了常见情况，但如果 tokenizer.convert_tokens_to_ids 返回非整数（如列表），逻辑可能不处理，但概率较低。
性能影响：初始化时增加一次 tokenizer 查询，可忽略不计。

影响：

用户：修复了 Kimi-K2.5 多模态推理的崩溃，恢复图像/视频输入功能。
系统：确保模型在多模态场景下的正确性，避免断言失败。
团队：为 transformers v5 升级提供了支持，解决了配置与 tokenizer 不一致的通用问题模式。

关联脉络

关联 Issue #39261：直接修复此 bug，详细描述了崩溃现象和根本原因。
历史 PR：与近期多模态相关 bugfix（如 PR #39526、#38907）形成脉络，共同提升多模态推理的稳定性。
演进趋势：随着 transformers v5 升级，模型配置与 tokenizer 不一致的问题可能更常见，本 PR 提供了一种优雅的解决方案：动态解析并打补丁，同时记录警告。这为类似问题（如其他缺少 tokenizer.json 的模型）提供了参考模式。

支持 Prhub ♥

#39344 fix(kimi_k25): resolve media_placeholder_token_id from tokenizer

执行摘要

修复 Kimi-K2.5 多模态推理因媒体占位符 token ID 不匹配导致的崩溃问题。

实现拆解

评论区精华

风险与影响

关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论