#20960 [Feature] Add token embedding overrides for sparse embedding replacement
作者 fortunecookiee · 合并时间 2026-04-09 11:51
新增稀疏token嵌入覆盖功能,允许在指定位置注入预计算嵌入向量。
建议工程师精读此PR,了解如何设计稀疏嵌入覆盖API,以及内部如何集成到tokenization、调度和模型执行流程。特别关注前缀缓存和CUDA图的处理机制,以避免性能退化,并学习PositionalEmbeds数据结构的应用。
参与讨论