将WAR屏障设为仅CUDA启用,修复AMD回归
值得精读,尤其是平台差异处理的决策过程。
SGLang is a high-performance serving framework for large language models and multimodal models.
将WAR屏障设为仅CUDA启用,修复AMD回归
值得精读,尤其是平台差异处理的决策过程。
修复MoRI后端混合状态传输组件感知架构,消除PD引导崩溃
值得精读,特别是conn.py中组件分发逻辑和序列化方案的设计抉择(pack_int_lists vs 自定义msgpack)。开发者可以学习如何将一种传输后端与新的架构对齐,以及如何设计兼容旧格式的升级路径。
更新 MooncakeStore 批处理测试以使用 v1 API
建议 MooncakeStore 相关开发者阅读,了解 v1 批处理 API 的正确用法和测试模式,可作为后续类似测试的参考。
修复 AMD MI355 上 MTP seq_lens 同步性能回退
该 PR 为针对特定 AMD GPU 型号性能回退的临时 workaround,代码量小且逻辑清晰,适合快速合并以解除 AMD MI355 上的性能阻塞。建议在 AMD CI 中增加 MTP 性能测试以覆盖此场景,并跟踪后续 AMD 驱动或 PyTorch 版本更新是否能移除该 workaround。
将DeepSeek-V4 AMD CI测试迁移到主分支标准镜像
该PR是基础设施改进,没有引入新功能,但对于保持AMD CI的可持续性很重要。建议CI维护者关注工作流变更后的实际运行时间变化,以及测试脚本中的环境变量是否与最新`run_dsv4.sh`保持同步。一般开发者可跳过阅读。
原始 PR · 作者 adityavaid · 合并时间 2026-05-29 15:09
为 Apple Silicon 添加融合 KV 缓存的 Metal RoPE 内核
建议重点关注 `MlxAOTKernelRegistry` 可扩展设计,作为后端自定义内核的注册典范。同时关注 partial RoPE 兼容性处理和环境变量开关的默认配置。值得参考 3D 线程网格优化和零拷贝 buffer 捐赠策略。
添加 .humanize/ 到 .gitignore
该 PR 是简单的配置变更,无需精读,但合并后开发者应更新本地 `.gitignore`。
修复 Ling-2.6 混合注意力分发器误将线性层路由到全注意力后端
建议团队仔细阅读此 PR,特别是 _is_linear_attention 标记的设计和后续 side effect 分析。对于维护其他混合模型的开发者,应注意此标记可能被误用。同时关注后续对 Ring-2.5 问题的修复。该 PR 也展示了在类型检查和注册表之间进行 dispatch 设计的权衡。
参与讨论