新增 4 个 diffusion benchmark 预设(图像编辑和 3D 形状)
值得 benchmark 使用者和大模型 perf engineers 关注。PR 展示了如何通过实测数据(FireRed 1.0/1.1)做出多 GPU 策略选择(CFG parallel vs. Ulysses),以及如何用 `config_overrides` 实现模型级配置覆盖。但需注意文档与脚本的同步问题,建议采纳 review 中的修改建议。
SGLang is a high-performance serving framework for large language models and multimodal models.
新增 4 个 diffusion benchmark 预设(图像编辑和 3D 形状)
值得 benchmark 使用者和大模型 perf engineers 关注。PR 展示了如何通过实测数据(FireRed 1.0/1.1)做出多 GPU 策略选择(CFG parallel vs. Ulysses),以及如何用 `config_overrides` 实现模型级配置覆盖。但需注意文档与脚本的同步问题,建议采纳 review 中的修改建议。
原始 PR · 作者 stargazerZJ · 合并时间 2026-05-05 07:23
为 NGRAMWorker 添加 update_weights_from_tensor 委托方法
该 PR 是一个正确且简洁的修复,值得纳入。虽然变动很小,但修复了一个影响 NGRAM 可用性的关键 bug。开发者可以快速合并。
合并 NSA pool 构建分支,简化代码
作为小范围重构,代码结构清晰,值得在仓库中推广同类模式。无需深入精读,但可关注其作为 #23882 前置依赖的演进。
拆分top-k选择函数减少specdec CPU开销
值得阅读,尤其是拆分torch.compile函数以减少编译开销的模式。开发者可参考此方法优化其他类似分支函数。
修复 marlin 缺失及文档清理
建议合并。该 PR 属于典型的微小修复,改动量小且明确,无需深度 review。
修复 deep-gemm wheel 发布流程中重命名和 PyPI 上传问题
对于关注发布自动化和 CI/CD 的工程师值得精读,尤其是将操作移入容器避免环境依赖的实践。但 reviewer 建议的代码优化未纳入,建议在后续 PR 中跟进。
原始 PR · 作者 merrymercy · 合并时间 2026-05-05 04:57
重命名PD指标并提取设备计时器安装方法
该 PR 是适度的重构,值得学习其提取惯用法和统一命名的实践。可观测性相关开发者应关注指标名称变更,及时更新仪表盘。
更新文档最低GPU要求为SM80
值得快速合并。建议同步检查其他文档中是否还存在 SM75 提及。
参与讨论