LingBot 实时测试用例内联至 ONE_GPU_CASES
值得快速合并,无阻塞点。这是测试基础设施的清理,提升了 CI 用例注册的可发现性和一致性,适合在单 GPU 测试普遍采用此模式。
SGLang is a high-performance serving framework for large language models and multimodal models.
LingBot 实时测试用例内联至 ONE_GPU_CASES
值得快速合并,无阻塞点。这是测试基础设施的清理,提升了 CI 用例注册的可发现性和一致性,适合在单 GPU 测试普遍采用此模式。
修复 kl_nightly 重命名后遗留的过时导入
值得快速合入,修复 CI 稳定性。
改进 unified radix cache 类型注解
建议合并。此 PR 是纯类型注解改进,有助于减少未来开发中的类型错误和 IDE 提示缺失,且已通过 CI 测试。对于关注代码质量和可维护性的团队,值得精读以了解如何逐步加强现有代码的类型覆盖。
原始 PR · 作者 littleyellowbicycle · 合并时间 2026-06-02 20:55
标记 NPU 不支持远程权重加载
该 PR 为简单的文档更新,无技术洞察价值,但体现了对 NPU 平台支持的持续维护。
为实时 WebUI 添加超分辨率与预览缩放控件
此 PR 实施质量较高,前端改动有配套样式调整和测试,后端逻辑增强有缓存和动态适配。建议关注点:后处理模块的缓存线程安全性、测试对 monkeypatch 的依赖(是否脆弱)。对于类似需求(如帧插值控制),可以参考此 PR 的控件和测试模式。
优化 Cosmos3 去噪热点路径,集中进度条、融合 RoPE 与 QK 归一化
建议仔细阅读 `qwen3_apply_rotary_pos_emb` 的重写,学习如何在保持数值等价下通过内联和直接写入减少张量操作;进度条集中化模式适用于其他子模块;`_postprocess_tensor` 的 in-place 技巧可推广到类似场景。该 PR 展示了典型的“测量-识别热点-优化”流程,值得工程团队参考。
修复PP下预填充引导请求孤儿问题
该 PR 值得审阅,尤其是对涉及 PP 分解和分布式系统状态的开发者。变更逻辑清晰,但缺少对应的单元测试。建议后续添加测试以覆盖 PP 分解中 bootstrap 请求被中止的场景。
为 GLM5 添加 UnifiedTree Nightly CI 测试
值得作为测试基础设施扩展的示例:通过环境变量切换不同实现,在 nightly 中保持对候选方案的长期验证。注意阈值调整需结合真实精度数据,避免过度放松标准。
参与讨论