#25178 minor: docs include mac installation
原始 PR · 作者 JINO-ROHIT · 合并时间 2026-05-18 15:49
在安装文档中添加 Apple Metal 链接并更新版本号
该 PR 为简单的文档维护,变更清晰,review 已通过,建议合并。关注点在于确保 `apple_metal.mdx` 页面存在,否则该链接会失效。
标签列表
聚合结果
原始 PR · 作者 JINO-ROHIT · 合并时间 2026-05-18 15:49
在安装文档中添加 Apple Metal 链接并更新版本号
该 PR 为简单的文档维护,变更清晰,review 已通过,建议合并。关注点在于确保 `apple_metal.mdx` 页面存在,否则该链接会失效。
MLX 预量化模型配置自动识别
该 PR 修复了实际用户报障且设计上恪守了后端功能隔离原则(所有逻辑位于 `mlx.py`),推荐合并。值得关注的设计决策是:选择复用已有的 `override_quantization_method` 扩展点而非在 `model_config.py` 中增加条件判断,保持了架构整洁。
MLX 后端新增 mlx_q4/q8 即时量化支持
建议精读此 PR,尤其关注以下设计决策:1. 如何通过标记配置类(MlxQuantizationConfig)避免后端代码侵入并行配置架构;2. 如何利用 MLX 元数据在 `_load_model` 中计算内存节省而不强制实例化权重;3. 如何通过 `is_mps()` 条件注册实现平台感知的量化方法集合;4. 测试文件的注册与自动跳过模式,可作为跨平台测试的范式。
原始 PR · 作者 yeahdongcn · 合并时间 2026-05-12 08:54
为 Apple Silicon 添加 Metal kernel 构建支持
值得精读。该 PR 展示了多后端 kernel 仓库的搭建方式,setup_metal.py 的异常处理和 ccache 集成是良好实践。Review 中关于 AOT/JIT 和 IR 接口的讨论具有技术参考价值。
原始 PR · 作者 changminbark · 合并时间 2026-04-30 03:21
MLX 后端实现解码异步重叠调度
**值得精读**。该 PR 展示了如何利用 MLX 的 lazy evaluation 特性设计高效的 GPU 流水线,是 Apple Silicon 推理性能优化的核心里程碑。`SchedulerMlxOverlapMixin` 中的链式调度设计(两图链、链中断条件、`async_eval` 与 `finalize` 分离)具有较高参考价值。后续可以考虑扩展到 prefill/extend 链以及更鲁棒的 KV 缓存管理。
原始 PR · 作者 yeahdongcn · 合并时间 2026-04-24 09:12
缓存BatchedDecodeContext中的派生张量,消除每层重复计算
值得精读。这是一个小而精的性能优化示例,展示了如何通过数据缓存减少冗余计算和主机-设备拷贝,对MLX后端推理性能有明显提升。同时体现了如何通过review迭代采纳建议,最终实现更优方案。对于其他后端的类似模式有参考价值。
原始 PR · 作者 yeahdongcn · 合并时间 2026-04-14 03:41
为MLX和MUSA硬件后端目录添加CODEOWNERS配置。
这是一个简单的配置更新,无需深入阅读。对于技术管理者,可以关注MLX和MUSA后端的所有权已明确;对于工程师,除非参与这些后端开发,否则无需特别关注。
为bench_one_batch.py脚本添加MLX性能分析支持,支持GPU和系统范围分析。
建议技术管理者和工程师: - 值得快速浏览以了解MLX profiling集成模式,特别是在条件处理和文件名适配方面的设计决策。 - 关注gemini-code-assist[bot]提出的兼容性讨论,学习如何在跨平台代码中维护正确性。 - 对于涉及性能分析或macOS开发的工程师,推荐精读以复用类似实现。