Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-05-19
功能 重要性 5.99 洞察度 4.00

支持 tokenspeed_mla 注意力后端的 draft extend CUDA graph

建议精读。本 PR 虽改动量小,但展示了 speculative decoding 框架在为新型注意力后端添加 CUDA graph 支持时的典型模式:导入后端类、添加到 `isinstance` 条件列表。对于关注 Blackwell 架构 token speed 模式或计划扩展其他后端的开发人员具有参考价值。

缺陷修复 重要性 5.94 洞察度 4.00

修复 DP buffer 缺失 group 参数

建议快速合并。属于 PR#19329 的遗漏修复,改动清晰,经过 CI 验证。可作为理解 SGLang 中通信组管理与 DP/TP 交互的参考案例。

缺陷修复 重要性 5.90 洞察度 5.00

修复 Gemma4 注意力后端用户覆盖失效

1. **值得精读**:展示了如何在配置系统中正确处理“默认 vs 用户覆盖”的惯用模式。 2. **设计决策**:使用 `is_attention_backend_not_set()` 作为守卫,配合分拆后端的回退逻辑,是健壮的配置覆盖模式。 3. **值得关注的点**:AI 审查助手发现的分拆后端场景是一个常见的陷阱,值得在类似配置逻辑中推广。

功能 重要性 6.07 洞察度 4.00

为 Qwen3 Next 和 Qwen3.5 模型添加可配置的输出门激活类型。

值得精读,特别是对 Qwen3 系列模型进行定制推理的团队。建议关注 `Qwen3_5TextConfig` 是否需要同步添加字段,以及 `self.output_gate_type or self.activation` 的简化写法是否更优。

#24933 Amd/deepseek v4 rebase main 0509

原始 PR · 作者 kkHuang-amd · 合并时间 2026-05-19 00:15

功能 重要性 9.18 洞察度 6.00

为ROCm平台添加DeepSeek V4模型支持,新增HIP注意力后端与Triton内核

值得精读的文件包括`deepseek_v4_backend_hip_radix.py`(理解ROCm后端架构)、`compress_hip.py`(HIP专用压缩设计)和`tilelang_kernel.py`(TileLang内核实现与monkey-patch技巧)。建议重点关注环境变量治理和条件编译模式,后续可借鉴到其他平台适配。

参与讨论