Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

feature 相关 PR

2026-06-07
功能 重要性 7.95 洞察度 6.00

扩展EAGLE spec v2树推理支持page>1+topk>1

建议所有涉及speculative decoding的开发者和reviewer精读。关键设计决策包括:孔状布局理由、前缀复制方案、行宽保护与failure模式选择。值得关注的设计模式:用always-on CPU断言代替难诊断的GPU错误,是防守型编程的良好范例。

2026-06-06
功能 重要性 9.00 洞察度 5.00

新增 Apertus2509 工具调用与推理块解析器

该 PR 设计思路清晰,遵循了现有解析器框架的扩展模式,是添加新模型格式的良好范例。建议阅读 `apertus2509_detector.py` 和 `reasoning_parser.py` 的源码,了解如何集成 tool call 与 reasoning 解析。对于需要支持相似自定义格式的开发者,该 PR 提供了可复用的模式。

#27379 [diffusion] model: support Ideogram4 NVFP4

原始 PR · 作者 mickqian · 合并时间 2026-06-06 11:14

功能 重要性 9.18 洞察度 5.00

新增Ideogram4 NVFP4 原生支持

建议阅读此PR以了解如何在SGLang中集成新的扩散模型和量化方案。重点关注bitsandbytes适配器的设计、Comfy布局推断逻辑以及量化线性层的工厂模式。对于review中提出的两个正确性问题,建议在后续迭代中修复。

功能 重要性 6.55 洞察度 6.00

OOT平台插件设备检测修复与导入优化

此 PR 是硬件抽象层 RFC 的第一步落地,值得关注其设计取舍。对于平台集成者,建议精读 `device_mixin.py` 和 `device_config.py` 的变更以了解接口约定。对于核心开发者,注意后续需要清理剩余的延迟导入和硬编码检查。

功能 重要性 9.06 洞察度 7.00

为自适应推测解码增加 batch size 感知的独立 EMA 与步长切换

该 PR 扩展了自适应推测解码的核心能力,设计上考虑了向后兼容和性能优化(CUDA 图裁剪)。代码质量较高,测试覆盖充分。建议所有涉及推测解码的开发者精读,尤其是 `AdaptiveStepSlot` 和 `AdaptiveController` 的设计,以及 CUDA 图裁剪的实现思路。

功能 重要性 9.00 洞察度 6.00

实验性快速 LoRA 路径:融合 TRT-LLM MoE + 双流重叠,FP8/NVFP4 吞吐提升 1.7x

该 PR 技术含量高,**值得精读**。核心设计(融合 MoE + LoRA 双流重叠、Split-K 融合、JIT 内核生成)为高性能 LoRA 推理提供了范本。Review 过程严格保障默认路径安全,是实验性功能落地的最佳实践。建议团队在后续重构中关注:1) 将 `*_temp` 包合并到正式模块;2) 补充单元测试和 CI 集成;3) 扩展支持更多模型和硬件。

#27166 Reland "Support NextN = 2/4 in DSV32"

原始 PR · 作者 b8zhong · 合并时间 2026-06-06 04:43

功能 重要性 7.27 洞察度 5.00

支持 DSV32 中 NextN = 2/4 的 DG 原生路径

值得精读。该 PR 展示了如何利用 DeepGEMM 原生多 token 接口优化计算密集型 kernel,尤其是 `_build_paged_mqa_schedule_2d_ctx_lens` 的布局选择逻辑和 `use_dg_native` 的 fallback 设计,对类似 speculative decoding 加速场景有参考价值。