#23214 Fix test_modelopt_export using stale ModelConfig kwargs
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-20 14:18
修复模型优化导出测试中因ModelConfig参数过时而导致的TypeError。
该 PR 变更简单直接,无需精读。值得关注的是它揭示了历史重构(#10154)后测试未及时更新的问题,提醒团队在接口变更时需同步更新所有相关测试。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-20 14:18
修复模型优化导出测试中因ModelConfig参数过时而导致的TypeError。
该 PR 变更简单直接,无需精读。值得关注的是它揭示了历史重构(#10154)后测试未及时更新的问题,提醒团队在接口变更时需同步更新所有相关测试。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-20 13:07
将CPU测试套件拆分为4个并行分区,解决执行时间接近超时的问题。
该PR是典型的CI优化变更,实现简洁且复用现有机制。建议关注LPT分区策略的实际效果,以及后续是否需要对其他测试套件进行类似拆分。
为原生 Rust gRPC 服务器建立基础架构:协议定义、Rust crate 脚手架和服务器参数。
此 PR 值得精读,特别是协议定义和构建集成部分。关注点包括:1) proto 设计的权衡和未来合并计划;2) Rust 扩展与 Python 集成的模式;3) 环境变量和服务器参数的管理策略。
移除NSA模块中重复的上下文并行工具函数,统一到cp_utils.py并更新调用者。
建议工程团队仔细阅读cp_utils.py中的实现,关注前缀长度处理和多批次扩展的支持。重构展示了代码去重和接口统一的设计模式,值得学习其模块化思路。
无条件嵌入 StreamingSession 到 UnifiedRadixCache,移除配置开关实现零开销。
值得精读,尤其关注如何通过设计实现零开销嵌入(如 try_* 短路机制)以及配置简化的最佳实践,适合缓存和会话管理模块的开发者参考。
支持上下文并行下的AllReduce融合,移除CP大小限制
该PR值得精读,特别是 `flashinfer_comm_fusion.py` 中自定义 `_FixedTorchDistBackend` 的设计,展示了如何修复第三方库的广播问题并适配子通信组。关注工作空间预初始化时机以避免CUDA图死锁。
将流式会话原生集成到 UnifiedRadixCache,统一缓存管理接口并消除代码重复。
建议技术管理者和工程师精读此 PR,重点关注嵌入式 `SessionAwareCache` 的组合设计模式如何避免代码重复,以及统一接口如何简化调用方逻辑。同时注意递归风险的防范措施。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-20 11:34
修复 CI 路径过滤器中的否定样式错误,确保关键构建文件正确触发测试。
建议精读此 PR,了解 CI 路径过滤器中否定样式的常见陷阱和修复方法。关注 basename-level 与扩展级否定的区别,以及如何避免上游工具 bug(如 dorny/paths-filter 的多否定排序问题)。这对于维护 CI 配置和确保构建一致性有借鉴意义。
参与讨论