将各类 MoE 专家实现统一迁移至 fused_moe/experts/ 目录
该 PR 是典型的代码模块化重构案例,值得关注以下几点:1) 如何通过子目录组织不同的 expert 实现;2) 如何利用包入口(`__init__.py`)统一暴露符号,隐藏内部实现细节;3) 合并多个同主题 PR 的协作模式。建议架构师和需要扩展 MoE 相关功能的开发者精读。
A high-throughput and memory-efficient inference and serving engine for LLMs
将各类 MoE 专家实现统一迁移至 fused_moe/experts/ 目录
该 PR 是典型的代码模块化重构案例,值得关注以下几点:1) 如何通过子目录组织不同的 expert 实现;2) 如何利用包入口(`__init__.py`)统一暴露符号,隐藏内部实现细节;3) 合并多个同主题 PR 的协作模式。建议架构师和需要扩展 MoE 相关功能的开发者精读。
使 safetensors 检查点预取参数可配置
值得精读,尤其是参数化设计模式和并发原语替换的讨论。建议后续补充单元测试和性能基准数据。
为 DeepSeek-V4 添加流水线并行支持
值得精读,展示了如何为复杂模型(含多流 hidden_states 和特殊注意力架构)添加 PP 支持,可作为其他模型 PP 集成的参考模板。
修复 causal_conv1d 超长序列 IMA 问题
值得 merge:改动简洁、针对性强,有完整的问题复现和性能验证。可参考此 PR 的模式,检查其他 Triton kernel 中是否也存在类似 int32 溢出风险。
统一 OffloadingManager 完整接口,为 touch/complete_load/complete_store 添加 ReqContext 参数
值得精读,尤其关注抽象基类接口演进方式:先为核心方法引入上下文参数,再逐步扩展到全部回调方法,保持渐进式兼容。此模式适合大型分布式系统的接口标准化。
修复 CPU 推测解码因 kernel 签名缺失崩溃
建议精读,这是一个展示如何通过最小签名变更加入兼容层以修复跨模块调用错误的优秀案例。对于维护 CPU 或扩展 spec decode 的开发者尤其值得关注。
统一 Qwen3.5 LoRA 前向路径
建议重点关注 LoRA 场景下的回归测试,特别是 TP>1 的配置。设计决策 '将复杂性转移到 LoRA 层' 值得在其他类似模型中复用。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-05-10 18:03
限制 Triton 注意力块大小为 128 修复 ROCm 共享内存溢出
值得仔细阅读,尤其是 `has_native_kv_cache_layout` 的设计和 TRITON_BLOCK_SIZE 硬上限的权衡。展示了如何通过块布局检测与内核选择协同解决硬件兼容性问题,对理解 ROCm 注意力实现和 Hybrid Mamba 支持有参考价值。
参与讨论