修复kimi-linear模型因缺少scaling属性导致的服务器启动错误。
该PR虽然改动小,但涉及模型配置核心逻辑,值得精读以了解MLA架构的scaling计算和rope_scaling处理设计。推荐关注_derive_model_shapes方法中的条件逻辑,并检查其他MLA架构是否需要类似修复。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复kimi-linear模型因缺少scaling属性导致的服务器启动错误。
该PR虽然改动小,但涉及模型配置核心逻辑,值得精读以了解MLA架构的scaling计算和rope_scaling处理设计。推荐关注_derive_model_shapes方法中的条件逻辑,并检查其他MLA架构是否需要类似修复。
移除evict滑动窗口注意力与分段CUDA图互斥限制,提升解码吞吐量。
建议工程师精读此PR以理解调度优化策略,关注性能提升的实证数据,对于从事性能调优的开发者,这是一个简单但有效的案例。
为CI环测试添加30分钟超时参数以解决超时失败。
变更简单直接,无需深入精读;对于CI维护人员,可作为超时配置调整的参考案例。
原始 PR · 作者 weireweire · 合并时间 2026-03-31 18:01
重构disaggregation接收器生命周期,修复因DP平衡导致的hang问题。
建议技术管理者关注此PR,因为它解决了核心disaggregation路径的关键bug,并引入了重要的设计变更。工程师应精读decode.py和common/conn.py的改动,理解receiver初始化的新流程,并注意review中未解决的failure handling问题,以便在后续开发中处理。
修复 CI 中 rerun-test 命令检测测试套件时忽略注释行的正则表达式。
这是一个简单的 CI 工具修复,对大多数工程师无需精读。如果有兴趣了解 CI 测试套件检测逻辑,可以查看 detect_cuda_suite 函数的实现。
原始 PR · 作者 yeahdongcn · 合并时间 2026-03-31 17:51
修复扩散模型模块中注释的一个拼写错误。
此PR不值得精读,因为它是一个简单的拼写错误修复。但review中提及的兼容性问题值得后续关注,建议相关模块维护者考虑在未来的PR中解决。
修复DeepStack多模态嵌入路径中的索引对齐错误,提升混合模态输入的鲁棒性。
该PR变更简单,但涉及多模态处理的关键对齐逻辑,值得工程师在类似场景中参考以保持数据一致性。建议关注 `embed_mm_inputs` 函数的结构,理解列表对齐的维护方式。
将CI slash命令`/rerun-ut`重命名为`/rerun-test`以更准确反映其测试范围。
该PR变更简单,值得快速浏览以了解CI命令命名规范。重点关注权限键变更是否已妥善处理,建议工程师检查`.github/CI_PERMISSIONS.json`是否同步更新,或考虑实现向后兼容逻辑。
参与讨论