为 Qwen3 Next 和 Qwen3.5 模型添加可配置的输出门激活类型。
值得精读,特别是对 Qwen3 系列模型进行定制推理的团队。建议关注 `Qwen3_5TextConfig` 是否需要同步添加字段,以及 `self.output_gate_type or self.activation` 的简化写法是否更优。
SGLang is a high-performance serving framework for large language models and multimodal models.
为 Qwen3 Next 和 Qwen3.5 模型添加可配置的输出门激活类型。
值得精读,特别是对 Qwen3 系列模型进行定制推理的团队。建议关注 `Qwen3_5TextConfig` 是否需要同步添加字段,以及 `self.output_gate_type or self.activation` 的简化写法是否更优。
新增均匀专家路由环境变量用于基准测试
该 PR 值得快速合并。实现简洁、文档清晰,且对基准测试工作流程有明显提升。建议后续添加单元测试验证均匀分配的正确性。
原始 PR · 作者 kkHuang-amd · 合并时间 2026-05-19 00:15
为ROCm平台添加DeepSeek V4模型支持,新增HIP注意力后端与Triton内核
值得精读的文件包括`deepseek_v4_backend_hip_radix.py`(理解ROCm后端架构)、`compress_hip.py`(HIP专用压缩设计)和`tilelang_kernel.py`(TileLang内核实现与monkey-patch技巧)。建议重点关注环境变量治理和条件编译模式,后续可借鉴到其他平台适配。
LTX2 original 模式 stage-2 改用动态 LoRA
值得精读。该 PR 展示了在共享权重场景下,通过动态 LoRA 避免请求路径上权重变动的设计思路。建议关注 review 中关于阶段无关性的建议,考虑在后续迭代中统一处理 `original` 模式的所有阶段。
原始 PR · 作者 whybeyoung · 合并时间 2026-05-18 22:57
修复 PD decode 中止请求残留导致超时问题
建议尽快合并,属于关键 bugfix;后续可考虑补充相关单元测试。
原始 PR · 作者 Gruner-atero · 合并时间 2026-05-18 22:02
SMG添加/v1/models模型名称发现回退
值得精读,特别是fallback模式的实现和测试设计。核心函数`get_model_name_from_v1_models`的JSON字段验证是良好的API适配实践。如果使用SMG,建议关注此变更,并考虑扩展类似回退逻辑。
原始 PR · 作者 xieminghe1 · 合并时间 2026-05-18 21:35
为 DeepSeekV4 添加 fused MoE Triton autotune 支持
PR 改动简洁清晰,适合作为支持新模型架构调优的参考模板。建议关注 `swiglu_limit` 值的通用性,未来可考虑从模型配置中自动推导。
原始 PR · 作者 ShangmingCai · 合并时间 2026-05-18 19:56
为 fake KV backend 添加 abort 与状态管理
该 PR 逻辑清晰、改动量小,属于常规维护级别的 bugfix/功能补强,值得合并。但其重要性较低,不需精读。
参与讨论