#25112 [AMD] Bump --timeout-per-file 1800->2400 for stage-b-test-1-gpu-small-amd
原始 PR · 作者 michaelzhang-ai · 合并时间 2026-05-15 15:10
AMD CI 超时参数调整:1800→2400 秒
该 PR 是典型的 CI 运维优化,值得关注的是其数据驱动的分析方法和详实的 PR body。技术决策者可以学习如何基于实际运行数据(分布统计、分阶段对比)来合理设置超时阈值。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 michaelzhang-ai · 合并时间 2026-05-15 15:10
AMD CI 超时参数调整:1800→2400 秒
该 PR 是典型的 CI 运维优化,值得关注的是其数据驱动的分析方法和详实的 PR body。技术决策者可以学习如何基于实际运行数据(分布统计、分阶段对比)来合理设置超时阈值。
DSV4 部署文档新增 HiCache 选项
该 PR 是常规文档更新,值得关注的是其展示了如何在交互式命令生成器中安全地集成新的功能选项(环境变量 + 启动参数),可作为后续添加其他选项的参考模式。建议阅读 `deepseek-v4-deployment.jsx` 中 hicache 选项的定义和命令拼接逻辑。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-15 14:32
新增 Ring-2.6-1T 模型部署文档与交互式命令生成器
如果团队或用户计划部署 Ring-2.6-1T 模型,此 PR 的文档应作为官方参考。对于开发者,交互组件 `Ring261TDeployment` 的设计模式(选项驱动 + 命令生成 + 暗色模式检测)可复用于其他模型 cookbook。
修复 Cache-DiT 下 Z-Image 的 sequence parallel 覆盖问题
此 PR 值得精读,尤其是其修复模式——通过参数传递替代直接属性修改,是一种更稳健的设计。对于涉及模型包装和参数覆盖的场景有参考价值。
原始 PR · 作者 niehen6174 · 合并时间 2026-05-15 13:22
修复 denoising 阶段忽略 dit_precision 配置的 bug
值得合并,修复逻辑清晰,风险极低。建议作为常规维护 PR 处理。
延迟共享专家计算以降低峰值显存
该 PR 值得关注其设计思路:通过改变算子执行顺序而非引入新算子来优化显存。建议精读 `deepseek_v2.py` 中 `forward_normal` 方法的变更逻辑。
原始 PR · 作者 froststeam · 合并时间 2026-05-15 11:23
为 MUSA 添加 FlashInfer 采样后端
值得阅读,特别是对 MUSA 后端的适配方式。设计决策中采用了与 CUDA 后端类似的接口封装,便于未来统一。
DeepSeek V4 集成 HiCache,引入 Sidecar 池复用索引。
建议精读核心文件:`memory_pool_host.py` 中的 `LogicalHostPool` 设计展示了如何以纯逻辑池作为锚点,`hybrid_cache_controller.py` 中的 sidecar 解析演示了懒绑定索引的使用模式,适合作为缓存层次化扩展的参考。注意当前限制(仅 KV 源、无 kernel 后端)并关注后续改进。
参与讨论