添加 Cosmos3 Nano T2V 单 GPU 一致性测试
该 PR 属于常规测试补充,逻辑清晰,无争议,建议合并。若有后续 Cosmos3 系列优化 PR,应同步更新对应的测试基线与阈值。
SGLang is a high-performance serving framework for large language models and multimodal models.
添加 Cosmos3 Nano T2V 单 GPU 一致性测试
该 PR 属于常规测试补充,逻辑清晰,无争议,建议合并。若有后续 Cosmos3 系列优化 PR,应同步更新对应的测试基线与阈值。
新增 DeepSeek-V4 EPLB Waterfill 配置文档
值得精读:该文档总结了 DeepEP Waterfill 的关键参数和约束,对使用 DeepSeek-V4 进行 EP 部署的团队有直接指导意义。设计上明确了实验性特征与兼容性边界,体现了良好的文档实践。
限制gfx942上max_kv_splits为256,修复Kimi-K2.6挂起
值得精读。设计决策:针对特定SKU硬编码上限是否优于动态内存预算?后续若能统一为“两倍最大上下文分割数”则更通用。此外,`is_gfx942_supported`的引入为后续AMD特殊处理提供了范例。
优化流式 detokenizer 更新延迟合并并跳过空解码
值得精读,尤其关注 `DecodeStatus` 的延迟块累积设计——它用极小的内存代价消除了流式场景下常见的 O(N²) 瓶颈,是轻量性能优化的范例。
原始 PR · 作者 kflansburg · 合并时间 2026-06-03 14:33
修复 PD 分离中 DSA/SWA 状态页传输不匹配
建议阅读者精读该 PR,了解如何通过边界防御和长度限制修正复杂的分布式传输 bug。`group_concurrent_contiguous` 的防御性设计思路值得参考。对于 DSA 模型分离部署团队,应尽快合并。
优化实时预览等待状态,用旋转圆环替代点脉冲动画
对于关注实时 WebUI 开发的工程师,可以了解其测试同步方法;对于其他开发者,此 PR 价值不大,无需精读。
修复 FlashInfer 自动调优时因 lm_head 导致 OOM
此 PR 设计简洁,修复明确,值得阅读以了解如何通过上下文管理器在特定路径跳过计算,避免 OOM。
回退 PR #26623,恢复老版路由逻辑
建议精读 `_is_full_attn` 的回退逻辑和 Bailing 模型的标记方式。该 PR 体现了 hybrid attention 路由在模型兼容性与正确性之间的权衡,值得关注后续是否有更统一的方案。
参与讨论