#36965 [Model][Quantization] Add GGUF support for MiniMax-M2.1
作者 JoursBleu · 合并时间 2026-03-30 14:24
为 MiniMax-M2.1 模型添加 GGUF 量化支持,包括多分片文件发现和权重映射。
该 PR 值得精读,因为它展示了如何扩展 vLLM 以支持新的模型和量化格式。关注的设计决策包括多分片文件处理、权重映射模式以及量化配置覆盖机制。
A high-throughput and memory-efficient inference and serving engine for LLMs
作者 JoursBleu · 合并时间 2026-03-30 14:24
为 MiniMax-M2.1 模型添加 GGUF 量化支持,包括多分片文件发现和权重映射。
该 PR 值得精读,因为它展示了如何扩展 vLLM 以支持新的模型和量化格式。关注的设计决策包括多分片文件处理、权重映射模式以及量化配置覆盖机制。
作者 khluu · 合并时间 2026-03-30 14:05
为AMD构建作业启用软失败并禁用重试,以容忍flaky失败。
该PR变更简单,代码阅读价值有限,但review讨论揭示了CI失败处理的设计权衡,值得关注以了解团队决策。建议工程师重点阅读讨论部分,无需深入代码细节。
作者 jaewonlee-fb · 合并时间 2026-03-30 13:53
修复 TRT-LLM FP8/NVFP4 MoE 内核中模拟路由方法的缺失,确保基准测试正常运行。
该 PR 变更简单直接,无需深入精读。工程师可关注路由方法支持架构,了解不同后端对路由方法的 allowlist 机制,这在设计 MoE 系统时是重要考量。
作者 ywang96 · 合并时间 2026-03-30 13:39
修复 PyTorch 2.9.0+ 下 Conv3D 性能回归,始终使用 forward_mulmat 方法。
建议工程师快速浏览此 PR,了解版本检查逻辑的优化,以处理 PyTorch 兼容性问题。无复杂设计决策,但可作为性能调优的参考案例。
作者 AndreasKaratzas · 合并时间 2026-03-30 13:36
为音频视频测试添加确定性温度设置和调试打印,减少max_tokens以增强测试稳定性。
该PR值得快速阅读以了解测试稳定性改进的最佳实践。关注点包括如何通过设置确定性参数处理非确定性测试,以及添加调试信息以辅助未来诊断。对于涉及多模态测试的开发者,这是一个有用的参考。
作者 ZJY0516 · 合并时间 2026-03-30 12:10
将 @ZJY0516 添加为 vLLM 三个新路径的代码所有者。
这是一个简单的配置更新,不需要深入精读代码。建议注意自动评论中指出的 CODEOWNERS 规则覆盖风险,并在未来类似变更中验证规则正确性,确保所有相关 owner 被包括。
作者 kizill · 合并时间 2026-03-30 12:07
修复 DeepSeek v3.2 工具解析器对多类型参数的支持,避免异常。
建议工程师精读此 PR,以了解类型解析设计决策和异常处理优化,重点关注 `_convert_param_value` 方法的重构和多类型支持实现。对于涉及工具调用或类似解析场景的开发,此变更提供了有价值的参考。
作者 AndreasKaratzas · 合并时间 2026-03-30 10:30
在ROCm平台上启用混合分块预填充测试,添加MI325 GPU的CI步骤。
建议技术管理者关注此PR,作为ROCm平台测试扩展的示例,值得工程师精读以了解条件跳过策略和CI配置最佳实践,特别是对于多GPU环境。
参与讨论