统一 OffloadingManager 完整接口,为 touch/complete_load/complete_store 添加 ReqContext 参数
值得精读,尤其关注抽象基类接口演进方式:先为核心方法引入上下文参数,再逐步扩展到全部回调方法,保持渐进式兼容。此模式适合大型分布式系统的接口标准化。
A high-throughput and memory-efficient inference and serving engine for LLMs
统一 OffloadingManager 完整接口,为 touch/complete_load/complete_store 添加 ReqContext 参数
值得精读,尤其关注抽象基类接口演进方式:先为核心方法引入上下文参数,再逐步扩展到全部回调方法,保持渐进式兼容。此模式适合大型分布式系统的接口标准化。
修复 CPU 推测解码因 kernel 签名缺失崩溃
建议精读,这是一个展示如何通过最小签名变更加入兼容层以修复跨模块调用错误的优秀案例。对于维护 CPU 或扩展 spec decode 的开发者尤其值得关注。
统一 Qwen3.5 LoRA 前向路径
建议重点关注 LoRA 场景下的回归测试,特别是 TP>1 的配置。设计决策 '将复杂性转移到 LoRA 层' 值得在其他类似模型中复用。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-05-10 18:03
限制 Triton 注意力块大小为 128 修复 ROCm 共享内存溢出
值得仔细阅读,尤其是 `has_native_kv_cache_layout` 的设计和 TRITON_BLOCK_SIZE 硬上限的权衡。展示了如何通过块布局检测与内核选择协同解决硬件兼容性问题,对理解 ROCm 注意力实现和 Hybrid Mamba 支持有参考价值。
LoRA 测试触发条件增加 MoE 路径
该 PR 为简单的 CI 配置变更,实现意图明确。建议关注 bot 评论中提到的路径统一性问题,可在后续清理或调整 CI 配置时统一格式。对于 `LoRA %N` 步骤是否也应添加该依赖,可根据实际回归情况决定。
修复两个文档中的错误相对链接
该 PR 可直接合并,无需深入精读。值得关注的是作者对 CI 失败的正确判断和分离修复策略,可作为文档类 PR 的参考实践。
添加 @zyongye 到 CODEOWNERS
简单基础设施变更,无需深入阅读。可关注后续 DeepseekV4 文件的代码评审质量。
修复 NVFP4 SP 测试 mypy 失败
合并即可,无需深入审阅。但值得关注 #41362 的长期修复方案。
参与讨论