#23592 [CI] Refactor ci_install_dependency.sh into standalone functions
原始 PR · 作者 merrymercy · 合并时间 2026-04-25 08:39
CI安装脚本重构为独立函数
建议 CI 负责人/脚本维护者仔细阅读,尤其是函数化结构和 `mark_step_done` 模式,可在其他 CI 脚本中推广。普通开发者无需精读。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 merrymercy · 合并时间 2026-04-25 08:39
CI安装脚本重构为独立函数
建议 CI 负责人/脚本维护者仔细阅读,尤其是函数化结构和 `mark_step_done` 模式,可在其他 CI 脚本中推广。普通开发者无需精读。
原始 PR · 作者 alphabetc1 · 合并时间 2026-04-25 08:18
添加 DFLASH 投机解码文档
该 PR 值得精读,尤其是需要使用 DFLASH 投机解码的团队。Review 中的参数讨论也对理解 DFLASH 的限制条件有参考价值。
原始 PR · 作者 RolaoDenthu · 合并时间 2026-04-25 04:26
ROCm 7.0 编译 bpreshuffle 时回退到 Triton GEMM
该 PR 值得快速合并,它解决了一个关键精度回归问题,且设计清晰、风险可控。建议未来考虑测试环境覆盖 ROCm 7.0 场景,防止类似编译器回归。
更新AMD MoRI版本至v1.1.1
建议合并。该PR是常规依赖升级,变更简单明确。可关注后续CI中AMD相关测试是否通过,确认新版本兼容性。
原始 PR · 作者 jasperjiaguo · 合并时间 2026-04-25 03:05
消除注意力层 DtoD 拷贝,每层节省约 14μs
值得精读。本 PR 展示了如何通过 PyTorch 的 out 参数和 op schema 别名标注消除不必要的张量拷贝,是性能优化的经典案例。团队内的推理引擎开发人员应关注其中的设计权衡(如用 forward_batch 属性而非 kwargs 传递输出),以应用到其他相似场景。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-04-25 03:03
支持腾讯混元V3(Hy3-preview)模型推理与工具调用
该PR值得精读,特别是双流MoE重叠方案、自定义融合TopK kernel的实现、以及流式工具解析器的增量输出设计。建议后续关注group topk kernel的重构和AMD兼容性修复。
原始 PR · 作者 merrymercy · 合并时间 2026-04-25 03:00
弃用 --collect-tokens-histogram,由 --enable-metrics 自动收集
该 PR 属于配置简化类变更,技术深度不高。但如果需要了解 SGLang 的可观测性配置或如何优雅地弃用 CLI 参数(DeprecatedAction),值得快速阅读。对于普通开发、运维人员,建议了解变更后将 --collect-tokens-histogram 从部署脚本中移除。
为LTX2.3添加LoRA支持与多条件图像
值得精读,特别关注 `linear.py` 中的 LoRA 权重管理重构和多条件图像的 SP 支持设计;但需注意 review 指出的两个正确性风险,若未修复应尽快跟进。文档片段 `ltx-deployment.jsx` 作为交互式配置示例,可用于其他部署场景。
参与讨论