共享 TQ 去量化缓冲区并消除 float16_copy
值得精读,展示了注意力后端中从逐层缓冲区到全局 WorkSpace 管理的演进,以及 Triton 核函数级别的优化技巧。对于关注推理引擎性能优化的工程师有参考价值。
A high-throughput and memory-efficient inference and serving engine for LLMs
共享 TQ 去量化缓冲区并消除 float16_copy
值得精读,展示了注意力后端中从逐层缓冲区到全局 WorkSpace 管理的演进,以及 Triton 核函数级别的优化技巧。对于关注推理引擎性能优化的工程师有参考价值。
ViT 编码器注意力 FP8 量化加速
建议精读。特别是 FP8 缩放策略的设计(动态 vs 静态)、自动保存机制以及 Triton kernel 的 stride-aware 实现。对于需要优化多模态流水线的工程师具有直接参考价值。
原始 PR · 作者 ojhaanshika · 合并时间 2026-04-27 13:15
新增 Cutlass W4A16 内核端到端集成测试
建议所有涉及量化内核的开发者阅读此 PR,尤其是测试结构:使用参数化分离单元测试与端到端测试,通过 fixture 统一设置环境变量。CI 集成方式也值得推广。
原始 PR · 作者 Dao007forever · 合并时间 2026-04-27 12:33
修复 SWA 运行时准入与启动池大小计算不一致导致调度死锁
建议仔细阅读此 PR,尤其是单真源设计(singlesource of truth)在 admission 与 pool sizing 间的应用。值得关注的设计决策:将 cap 逻辑置于 manager 内部而非 coordinator 层,避免了 #39866/#40027 中的准入与分配分裂问题。代码实现简洁,注释清晰,适合作为 KV cache 准入逻辑的学习参考。
为 Isaac 模型添加 Transformers v5 版本门控
此 PR 是 Transformers v5 兼容性工作的典型增量——对单个模型添加版本门控。建议精读以理解 `_HfExamplesInfo` 的版本门控模式,便于后续类似问题的快速修复。
原始 PR · 作者 TheEpicDolphin · 合并时间 2026-04-27 10:12
MRV2 启用 one-hot 拒绝采样,修复接受率差距
建议所有使用 MRV2 推测解码的同学阅读此 PR,了解新的 `draft_sample_method` 配置及其对接受率和内存的影响。特别值得关注的设计模式是:通过 Triton 编译常量(`HAS_DRAFT_LOGITS`)在编译期分支内核逻辑,无运行时开销。同时关注后续可能的扩展:允许在不缓存 draft logits 的情况下使用随机采样。
原始 PR · 作者 youkaichao · 合并时间 2026-04-27 09:37
自动禁用expandable_segments以兼容cumem内存池
建议精读此PR,特别是`use_memory_pool`的`try/finally`重构和异常安全处理。设计上值得关注的是:在框架API不完善时,用环境变量加私有API实现临时开关;以及通过嵌套上下文管理器保持全局状态一致性的模式。
新增 DeepSeek V4 完整模型支持
值得深入精读。该 PR 展示了大规模模型集成的完整流程,特别关注 `deepseek_v4_attention.py` 中的 MLA 实现、`mhc.py` 的 TileLang kernel 设计,以及量化策略的权衡。评审中关于 API 设计和硬件兼容性的讨论也值得借鉴。
参与讨论