#22483 [CI] Remove Slack notification from ci-auto-bisect workflow
作者 alisonshao · 合并时间 2026-04-10 11:32
移除ci-auto-bisect工作流中的Slack通知步骤,简化CI通知流程。
此PR变更简单直接,无需深入精读。值得关注的点是CI通知流程的简化决策,体现了从多渠道通知向集中化仪表板的演进趋势。建议团队确认仪表板访问便捷性和可靠性。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 alisonshao · 合并时间 2026-04-10 11:32
移除ci-auto-bisect工作流中的Slack通知步骤,简化CI通知流程。
此PR变更简单直接,无需深入精读。值得关注的点是CI通知流程的简化决策,体现了从多渠道通知向集中化仪表板的演进趋势。建议团队确认仪表板访问便捷性和可靠性。
作者 alisonshao · 合并时间 2026-04-10 11:31
更新64个CI测试的估计时间,基于实际耗时优化分区平衡。
对于一般工程师,此PR无需精读,除非关注CI优化方法。值得注意的决策是使用严格标准(≥2数据点且≥50%差异>60s)来确保更新可靠性,可借鉴于类似估计调整场景。
作者 Kangyan-Zhou · 合并时间 2026-04-10 11:04
为 gRPC 模式新增 Prometheus metrics HTTP 端点,默认端口为主端口加一。
对于关注可观测性、gRPC 集成或 Prometheus metrics 的开发者,建议精读 `_start_metrics_server()` 函数的实现,特别是错误处理和资源管理部分。设计决策如使用 OpenMetrics 格式和 try/except 包装整个 metrics 初始化值得学习。
作者 LHXuuu · 合并时间 2026-04-10 10:58
为Kimi K2.5视觉语言模型添加Encoder-Prefill-Decode (EPD) 解耦支持,扩展多模态推理架构。
建议技术管理者精读此PR,以理解EPD架构的扩展机制和模型特定适配模式,关注设计权衡。工程师可重点关注 `encode_server.py` 中的属性处理逻辑和 `kimi_k25.py` 中的条件初始化策略,作为处理类似多模型支持时的参考案例。
作者 cyb70289 · 合并时间 2026-04-10 09:58
修复非 x86 平台构建错误,将 AVX512 专用结构体包装在条件编译宏内。
该 PR 变更简单直接,适合快速浏览以了解跨平台构建问题的典型修复模式。值得关注的是讨论中提到的 ARM CI 引入计划(PR #22123),这反映了团队在提升跨平台测试覆盖方面的持续投入。
作者 ishandhanani · 合并时间 2026-04-10 09:53
修复Dockerfile重构后CI构建目标错误,确保框架镜像包含完整sglang包。
该PR值得快速审阅,重点关注: 1. 确保所有需要修改的CI工作流文件都已覆盖(已确认release-docker-runtime.yml不受影响)。 2. 理解Dockerfile多阶段构建的设计,特别是framework与framework_final阶段的区别。 3. 可作为基础设施变更后及时更新依赖配置的典型案例。
作者 yichiche · 合并时间 2026-04-10 09:21
为WanVideo模型在AMD平台替换Triton RoPE内核为aiter HIP内核,提升推理性能。
该PR值得精读,特别是关注其性能优化策略:通过替换底层内核减少内存分配和形状转换开销。设计决策中值得学习的是如何平衡平台特异性优化与代码可维护性——通过环境变量和动态导入实现条件启用。建议工程师在类似优化场景中参考此模式。
作者 wenscarl · 合并时间 2026-04-10 08:44
修复Gemma 4 NVFP4模型在GB200上Triton attention kernel因PTX寄存器耗尽导致的崩溃问题。
建议工程师精读此PR以了解Triton kernel硬件适配模式,关注块大小调优对寄存器压力的影响。设计决策中值得注意:为不同CUDA能力添加专用分支以避免寄存器耗尽,但可考虑扩展更细粒度优化以适应不同场景。
参与讨论