#24572 [AMD] Register 5 server-style 1-GPU tests for AMD PR CI
原始 PR · 作者 michaelzhang-ai · 合并时间 2026-05-13 13:45
为AMD CI注册5个服务端1-GPU测试
值得合并。这是一次规范的CI测试注册实践:明确筛选条件、逐个验证、缩小范围。对于关注跨平台CI基础设施的读者,可以学习如何安全地将NVIDIA测试迁移到AMD平台。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 michaelzhang-ai · 合并时间 2026-05-13 13:45
为AMD CI注册5个服务端1-GPU测试
值得合并。这是一次规范的CI测试注册实践:明确筛选条件、逐个验证、缩小范围。对于关注跨平台CI基础设施的读者,可以学习如何安全地将NVIDIA测试迁移到AMD平台。
KV chunk容量可环境变量配置
值得快速合并。作为将硬编码参数环境变量化的模板,未来可参考此模式将其他待定参数(如 SGLANG_CHUNKED_PREFIX_CACHE_THRESHOLD)也统一管理。建议后续补充单元测试以验证环境变量解析和边界值。
重构 Intern-S2-Preview cookbook 并添加交互式命令生成器
建议文档维护者阅读此 PR,了解交互式命令生成器的实现方式,可用于后续其他 cookbook 页面的统一重构。值得注意的是组件采用了 MutationObserver 监听主题切换,确保亮暗主题下样式正确。
将idle时hidden_size计算延迟到worker fixup统一处理
值得精读,展示了如何通过延迟绑定(lazy binding)消除重复逻辑,是良好的架构清理范例。可关注 `hidden_size_for` 方法的设计。
将 check-changes CI job 提取为可复用 workflow
建议阅读此 PR 以了解 SGLang CI 库的重构方式,合并后可借鉴此模式提取其他重复 job。对 CI 运维领域有价值。
原始 PR · 作者 RulinJuice · 合并时间 2026-05-13 12:25
拒绝 repetition_penalty=0 避免 GPU 崩溃
值得精读。这是一个典型的“输入验证防止内核崩溃”的 bugfix,展示了如何通过早期验证避免 GPU 级别的灾难性失败。设计决策值得在其他除法相关参数验证中复用。
原始 PR · 作者 RunningLeon · 合并时间 2026-05-13 12:06
新增 Intern-S2-Preview 部署文档
对于需要部署 Intern-S2-Preview 模型的用户,建议精读此文档。文档中提供的 MTP 多 token 预测配置值得关注,展示了 SGLang 对新模型的高级特性支持。
修复 NSA HiCache 中缺失的 override_kv_cache_dim 参数
值得精读,展示如何从重构中引入细微 bug 并修复,同时进行接口清理。关注 `override_kv_cache_dim` 在共享锚点中的必要性,以及改为传递通信组对象的设计思路。
参与讨论