#43838 [Platform] Add is_cumem_allocator_available
原始 PR · 作者 wangxiyuan · 合并时间 2026-06-03 10:54
将 cumem 分配器检测移至平台接口
值得快速合入,属于必要的平台抽象层改进。虽然变更小,但对外部平台开发者友好。建议后续补充针对新方法的单元测试。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 wangxiyuan · 合并时间 2026-06-03 10:54
将 cumem 分配器检测移至平台接口
值得快速合入,属于必要的平台抽象层改进。虽然变更小,但对外部平台开发者友好。建议后续补充针对新方法的单元测试。
Dockerfile 中 flashinfer 安装索引 URL 修正
建议合并此 PR 以修复构建环境的依赖稳定性。属于基础设施微调,无需深入精读。
修复 DeepSeek V4 非 Mega MoE 模型初始化崩溃
建议合入。该 PR 修复了明确的回归问题,改动量小且安全。代码结构上已将 `_init_fused_moe_experts` 与 `_init_mega_moe_experts` 对齐,避免了后续出现类似的属性缺失问题。
对 Triton Top-p 采样 Kernel 应用单次遍历 min_larger 查找和二分搜索,提速 25-40%
值得精读,尤其对 Triton kernel 开发者和采样优化感兴趣者。该 PR 展示了如何通过算法改动(三分→二分)和计算融合(单次遍历 min_larger)来平衡寄存器压力,同时修复潜在 bug。设计决策明确,benchmark 数据详实。
原始 PR · 作者 WoosukKwon · 合并时间 2026-06-03 08:54
内联 DeepseekV4MegaMoEExperts 的 _run_mega_moe 方法
该 PR 属于常规代码清理,逻辑简单,风险低,可以直接合并。对于关注 DeepSeek V4 模块实现的开发者,可以借此熟悉 MegaMoE 的核心计算流程。
原始 PR · 作者 DaoyuanLi2816 · 合并时间 2026-06-03 08:22
移除死环境变量并修正文档
此 PR 展示了如何安全清理死代码和同步文档,适用于类似的遗留清理任务。
b12x MoE 后端支持 W4A16 NVFP4 检查点
此 PR 值得精读,因为它展示了一个精心设计的元数据兼容性修复,同时也体现了在热路径中避免动态分配的良好实践。
原始 PR · 作者 vadiklyutiy · 合并时间 2026-06-03 06:19
将 flashinfer 升级至 v0.6.12
建议合并,这是常规依赖升级,无风险。关注后续是否出现与 flashinfer 0.6.12 相关的运行时问题。
参与讨论