Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-19

#25489 Support draft extend cuda graph for tokenspeed_mla attention backend

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-19 02:26

功能重要性 5.99 洞察度 4.00

支持 tokenspeed_mla 注意力后端的 draft extend CUDA graph

建议精读。本 PR 虽改动量小，但展示了 speculative decoding 框架在为新型注意力后端添加 CUDA graph 支持时的典型模式：导入后端类、添加到 `isinstance` 条件列表。对于关注 Blackwell 架构 token speed 模式或计划扩展其他后端的开发人员具有参考价值。

speculative-decodingfeatureperformance

#25454 fix(eagle3): drop +1 offset on aux layer ids when first id != 1

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-19 02:25

缺陷修复重要性 5.88 洞察度 3.00

修复EAGLE3 draft模型aux层ID偏移问题

建议合并。此修复针对特定 draft 模型的兼容性问题，逻辑清晰，风险低，且有助于提升模型准确度。

bugfixspeculative-decodingdeepseek

#25585 [Bugfix] Fix missing group arg in get dp buffer

原始 PR · 作者 ShangmingCai · 合并时间 2026-05-19 02:08

缺陷修复重要性 5.94 洞察度 4.00

修复 DP buffer 缺失 group 参数

建议快速合并。属于 PR#19329 的遗漏修复，改动清晰，经过 CI 验证。可作为理解 SGLang 中通信组管理与 DP/TP 交互的参考案例。

bugfixdeepseekkv-cache

#25547 Respect user override for Gemma4 attention backend

原始 PR · 作者 kpham-sgl · 合并时间 2026-05-19 01:46

缺陷修复重要性 5.90 洞察度 5.00

修复 Gemma4 注意力后端用户覆盖失效

1. **值得精读**：展示了如何在配置系统中正确处理“默认 vs 用户覆盖”的惯用模式。 2. **设计决策**：使用 `is_attention_backend_not_set()` 作为守卫，配合分拆后端的回退逻辑，是健壮的配置覆盖模式。 3. **值得关注的点**：AI 审查助手发现的分拆后端场景是一个常见的陷阱，值得在类似配置逻辑中推广。

bugfixscheduling

#25542 Fix PD disaggregation warmup: set request_name and improve error logging

原始 PR · 作者 merrymercy · 合并时间 2026-05-19 00:49

缺陷修复重要性 4.90 洞察度 3.00

修复 PD 预热 endpoint 和日志

值得合并，修复了明显的 bug。但建议作者或后续 PR 跟进处理 review 指出的预热失败时函数返回值问题，以保持与非分离路径的行为一致。

bugfixdisaggregationscheduling

#25401 Add output_gate_type to Qwen3NextConfig and update models to utilize it

原始 PR · 作者 attack204 · 合并时间 2026-05-19 00:18

功能重要性 6.07 洞察度 4.00

为 Qwen3 Next 和 Qwen3.5 模型添加可配置的输出门激活类型。

值得精读，特别是对 Qwen3 系列模型进行定制推理的团队。建议关注 `Qwen3_5TextConfig` 是否需要同步添加字段，以及 `self.output_gate_type or self.activation` 的简化写法是否更优。

featuredeepseek

#25571 [Benchmark] Add SGLANG_SIMULATE_UNIFORM_EXPERTS for balanced expert routing with dummy weights

原始 PR · 作者 ByronHsu · 合并时间 2026-05-19 00:16

功能重要性 5.15 洞察度 4.00

新增均匀专家路由环境变量用于基准测试

该 PR 值得快速合并。实现简洁、文档清晰，且对基准测试工作流程有明显提升。建议后续添加单元测试验证均匀分配的正确性。

benchmarkmoeperformance

#24933 Amd/deepseek v4 rebase main 0509

原始 PR · 作者 kkHuang-amd · 合并时间 2026-05-19 00:15

功能重要性 9.18 洞察度 6.00

为ROCm平台添加DeepSeek V4模型支持，新增HIP注意力后端与Triton内核

值得精读的文件包括`deepseek_v4_backend_hip_radix.py`（理解ROCm后端架构）、`compress_hip.py`（HIP专用压缩设计）和`tilelang_kernel.py`（TileLang内核实现与monkey-patch技巧）。建议重点关注环境变量治理和条件编译模式，后续可借鉴到其他平台适配。

amddeepseekfeature

第 106 / 357 页 · 共 2850 条

上一页 1 … 104 105 106 107 108 … 357 下一页