#44122 [Refactor] Remove dead code fp quant
原始 PR · 作者 yewentao256 · 合并时间 2026-06-04 02:22
移除 FPQuant 中的死代码
建议合并,属于常规代码清理,无技术风险,有助于保持代码库整洁。
标签列表
聚合结果
原始 PR · 作者 yewentao256 · 合并时间 2026-06-04 02:22
移除 FPQuant 中的死代码
建议合并,属于常规代码清理,无技术风险,有助于保持代码库整洁。
修复 TrtLLM MoE 路由方法分类及 dtype 检查
建议尽快合入,以修复 CI 失败和模型兼容性问题。该 PR 展现了精细的路由方法分类调整,可精读 `get_routing_method_type` 的决策树逻辑,了解不同模型的路由模式。
启用 ROCm 的 per-token-group 量化内核
值得精读,特别是 `cmake/hipify.py` 的路径处理改进和内核的 warp 适配。设计上使用 `is_cuda_alike` 统一平台检查的做法值得借鉴。但建议在 MI300X 等目标 GPU 上进行充分的回归测试和精度对比。
b12x MoE 后端支持 W4A16 NVFP4 检查点
此 PR 值得精读,因为它展示了一个精心设计的元数据兼容性修复,同时也体现了在热路径中避免动态分配的良好实践。
为CPU/CUTLASS/WNA16 MoE后端添加GELU_TANH激活支持
值得精读,尤其是 WNA16 中从硬编码断言到动态传递 activation 的设计决策,以及 CPU C++ 中添加新激活的完整流程——枚举、解析、kernel 实现、分发函数。可作为后续扩展其他激活的参考模板。
修复 Humming MoE 部署时 quant config 与 schema 初始化遗漏
建议合并。该 PR 修复了明确的部署阻塞 bug,改动量小且经过本地验证。建议后续为该路径补充测试,防止回归。
原始 PR · 作者 brian-dellabetta · 合并时间 2026-06-02 23:51
为 compressed-tensors MoE WNA16 Marlin 添加非对称量化支持
建议阅读此 PR 以了解如何在 Marlin MoE 量化体系中扩展非对称 zero-point 支持。特别是 `moe_packed_to_marlin_zero_points` 与 `moe_awq_to_marlin_zero_points` 的对比,体现了不同量化工具包打包格式的差异。
原始 PR · 作者 TomerBN-Nvidia · 合并时间 2026-06-02 21:56
为 MXFP8 MoE 添加对 RELU2_NO_MUL 激活的支持
该 PR 功能明确、改动集中,评审无重大分歧,建议合并。但精读价值不高,主要关注点在于如何通过条件分支兼容不同激活和量化模式的设计模式。未来应考虑将 TRTLLM MXFP8 MoE 集成到统一 oracle 路径。