为 HiSparse 分层稀疏 KV 缓存系统添加端到端单元测试。
对于关注测试设计或 HiSparse 模块的工程师,此 PR 提供了单元测试的参考实现,展示了如何构建最小化组件栈进行端到端测试,值得参考以了解 HiSparse 系统测试策略。
标签列表
聚合结果
为 HiSparse 分层稀疏 KV 缓存系统添加端到端单元测试。
对于关注测试设计或 HiSparse 模块的工程师,此 PR 提供了单元测试的参考实现,展示了如何构建最小化组件栈进行端到端测试,值得参考以了解 HiSparse 系统测试策略。
修复 HiSparse 解码模式下健康检查时的内存泄漏问题。
该 PR 值得快速浏览,重点关注 `process_batch_result_prebuilt` 方法中新增的 HiSparse 协调器通知逻辑。设计决策是仅修复直接导致泄漏的问题,而未采纳 review 中关于补充多模态和 MoE 清理的建议,这可能是一个权衡点,需关注后续是否会出现相关内存问题。
原始 PR · 作者 huangtingwei9988 · 合并时间 2026-04-14 09:03
澄清HiSparse解码令牌使用日志,区分GPU和CPU令牌统计。
对于关注HiSparse性能监控的开发者,值得快速浏览实现细节,特别是get_token_stats和_get_hisparse_token_info方法的统计逻辑;对于一般用户,了解日志格式变化即可,无需深入代码。
为HiSparse添加bfloat16 KV缓存验证,确保启用时数据类型正确。
该PR实现简单但关键,建议精读以理解HiSparse对KV缓存数据类型的依赖关系。关注设计决策:选择严格验证而非自动转换,体现了对数据类型一致性的重视。