Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

macos 相关 PR

2026-05-18

#25178 minor: docs include mac installation

原始 PR · 作者 JINO-ROHIT · 合并时间 2026-05-18 15:49

文档 重要性 2.29 洞察度 2.00

在安装文档中添加 Apple Metal 链接并更新版本号

该 PR 为简单的文档维护,变更清晰,review 已通过,建议合并。关注点在于确保 `apple_metal.mdx` 页面存在,否则该链接会失效。

2026-05-15
缺陷修复 重要性 7.14 洞察度 5.00

MLX 预量化模型配置自动识别

该 PR 修复了实际用户报障且设计上恪守了后端功能隔离原则(所有逻辑位于 `mlx.py`),推荐合并。值得关注的设计决策是:选择复用已有的 `override_quantization_method` 扩展点而非在 `model_config.py` 中增加条件判断,保持了架构整洁。

2026-05-14
功能 重要性 8.90 洞察度 6.00

MLX 后端新增 mlx_q4/q8 即时量化支持

建议精读此 PR,尤其关注以下设计决策:1. 如何通过标记配置类(MlxQuantizationConfig)避免后端代码侵入并行配置架构;2. 如何利用 MLX 元数据在 `_load_model` 中计算内存节省而不强制实例化权重;3. 如何通过 `is_mps()` 条件注册实现平台感知的量化方法集合;4. 测试文件的注册与自动跳过模式,可作为跨平台测试的范式。

2026-05-12
功能 重要性 8.96 洞察度 6.00

为 Apple Silicon 添加 Metal kernel 构建支持

值得精读。该 PR 展示了多后端 kernel 仓库的搭建方式,setup_metal.py 的异常处理和 ccache 集成是良好实践。Review 中关于 AOT/JIT 和 IR 接口的讨论具有技术参考价值。

2026-04-30
功能 重要性 9.18 洞察度 7.00

MLX 后端实现解码异步重叠调度

**值得精读**。该 PR 展示了如何利用 MLX 的 lazy evaluation 特性设计高效的 GPU 流水线,是 Apple Silicon 推理性能优化的核心里程碑。`SchedulerMlxOverlapMixin` 中的链式调度设计(两图链、链中断条件、`async_eval` 与 `finalize` 分离)具有较高参考价值。后续可以考虑扩展到 prefill/extend 链以及更鲁棒的 KV 缓存管理。

2026-04-24
性能优化 重要性 6.80 洞察度 6.00

缓存BatchedDecodeContext中的派生张量,消除每层重复计算

值得精读。这是一个小而精的性能优化示例,展示了如何通过数据缓存减少冗余计算和主机-设备拷贝,对MLX后端推理性能有明显提升。同时体现了如何通过review迭代采纳建议,最终实现更优方案。对于其他后端的类似模式有参考价值。

2026-04-14

#22593 Update CODEOWNERS for musa/mlx

原始 PR · 作者 yeahdongcn · 合并时间 2026-04-14 03:41

基础设施 重要性 2.00 洞察度 1.00

为MLX和MUSA硬件后端目录添加CODEOWNERS配置。

这是一个简单的配置更新,无需深入阅读。对于技术管理者,可以关注MLX和MUSA后端的所有权已明确;对于工程师,除非参与这些后端开发,否则无需特别关注。

2026-04-09

#22159 Add MLX profiling to bench_one_batch.py

原始 PR · 作者 Jonahcb · 合并时间 2026-04-09 20:45

功能 重要性 6.00 洞察度 6.00

为bench_one_batch.py脚本添加MLX性能分析支持,支持GPU和系统范围分析。

建议技术管理者和工程师: - 值得快速浏览以了解MLX profiling集成模式,特别是在条件处理和文件名适配方面的设计决策。 - 关注gemini-code-assist[bot]提出的兼容性讨论,学习如何在跨平台代码中维护正确性。 - 对于涉及性能分析或macOS开发的工程师,推荐精读以复用类似实现。