执行摘要
新增稀疏 token 嵌入覆盖功能,允许在指定位置注入预计算嵌入向量。
PR body指出,现有input_embeds方法替换所有token嵌入,失去直接使用token ID的能力。需要稀疏覆盖:'replace embeddings at a few specific positions while letting the model's learned embed_tokens handle the rest'。应用场景包括推荐系统、RAG、多模态融合、知识图谱嵌入等,以注入外部信号如用户行为嵌入或预计算特征。
建议工程师精读此PR,了解如何设计稀疏嵌入覆盖API,以及内部如何集成到tokenization、调度和模型执行流程。特别关注前缀缓存和CUDA图的处理机制,以避免性能退化,并学习PositionalEmbeds数据结构的应用。
review中仅有gemini-code-assist[bot]的评论,建议重构io_struct.py中的重复方法_get_embed_overrides_item,以改善代码维护性。评论状态为COMMENTED,未显示是否采纳或进一步讨论。
参与讨论