Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-05-29
缺陷修复 重要性 8.03 洞察度 5.00

修复MoRI后端混合状态传输组件感知架构,消除PD引导崩溃

值得精读,特别是conn.py中组件分发逻辑和序列化方案的设计抉择(pack_int_lists vs 自定义msgpack)。开发者可以学习如何将一种传输后端与新的架构对齐,以及如何设计兼容旧格式的升级路径。

#25880 Update MooncakeStore batch tests to use v1 APIs

原始 PR · 作者 fcczzz · 合并时间 2026-05-29 15:18

测试 重要性 6.86 洞察度 4.00

更新 MooncakeStore 批处理测试以使用 v1 API

建议 MooncakeStore 相关开发者阅读,了解 v1 批处理 API 的正确用法和测试模式,可作为后续类似测试的参考。

性能优化 重要性 5.38 洞察度 3.00

修复 AMD MI355 上 MTP seq_lens 同步性能回退

该 PR 为针对特定 AMD GPU 型号性能回退的临时 workaround,代码量小且逻辑清晰,适合快速合并以解除 AMD MI355 上的性能阻塞。建议在 AMD CI 中增加 MTP 性能测试以覆盖此场景,并跟踪后续 AMD 驱动或 PyTorch 版本更新是否能移除该 workaround。

基础设施 重要性 5.38 洞察度 3.00

将DeepSeek-V4 AMD CI测试迁移到主分支标准镜像

该PR是基础设施改进,没有引入新功能,但对于保持AMD CI的可持续性很重要。建议CI维护者关注工作流变更后的实际运行时间变化,以及测试脚本中的环境变量是否与最新`run_dsv4.sh`保持同步。一般开发者可跳过阅读。

功能 重要性 9.00 洞察度 7.00

为 Apple Silicon 添加融合 KV 缓存的 Metal RoPE 内核

建议重点关注 `MlxAOTKernelRegistry` 可扩展设计,作为后端自定义内核的注册典范。同时关注 partial RoPE 兼容性处理和环境变量开关的默认配置。值得参考 3D 线程网格优化和零拷贝 buffer 捐赠策略。

#26680 Ignore `.humanize` folder

原始 PR · 作者 guapisolo · 合并时间 2026-05-29 15:09

其他 重要性 1.65 洞察度 1.00

添加 .humanize/ 到 .gitignore

该 PR 是简单的配置变更,无需精读,但合并后开发者应更新本地 `.gitignore`。

缺陷修复 重要性 6.73 洞察度 5.00

修复 Ling-2.6 混合注意力分发器误将线性层路由到全注意力后端

建议团队仔细阅读此 PR,特别是 _is_linear_attention 标记的设计和后续 side effect 分析。对于维护其他混合模型的开发者,应注意此标记可能被误用。同时关注后续对 Ring-2.5 问题的修复。该 PR 也展示了在类型检查和注册表之间进行 dispatch 设计的权衡。

参与讨论