扩展EAGLE spec v2树推理支持page>1+topk>1
建议所有涉及speculative decoding的开发者和reviewer精读。关键设计决策包括:孔状布局理由、前缀复制方案、行宽保护与failure模式选择。值得关注的设计模式:用always-on CPU断言代替难诊断的GPU错误,是防守型编程的良好范例。
标签列表
聚合结果
扩展EAGLE spec v2树推理支持page>1+topk>1
建议所有涉及speculative decoding的开发者和reviewer精读。关键设计决策包括:孔状布局理由、前缀复制方案、行宽保护与failure模式选择。值得关注的设计模式:用always-on CPU断言代替难诊断的GPU错误,是防守型编程的良好范例。
原始 PR · 作者 EduardDurech · 合并时间 2026-06-06 15:04
新增 Apertus2509 工具调用与推理块解析器
该 PR 设计思路清晰,遵循了现有解析器框架的扩展模式,是添加新模型格式的良好范例。建议阅读 `apertus2509_detector.py` 和 `reasoning_parser.py` 的源码,了解如何集成 tool call 与 reasoning 解析。对于需要支持相似自定义格式的开发者,该 PR 提供了可复用的模式。
启用 Cohere2MoE NVFP4 快速 MoE 路由
值得精读:该 PR 展示了如何通过枚举对齐和参数传递解锁后端能力,是跨模块集成的典型范例。开发者可关注 RoutingMethodType 与 flashinfer 上游的同步策略。
新增Ideogram4 NVFP4 原生支持
建议阅读此PR以了解如何在SGLang中集成新的扩散模型和量化方案。重点关注bitsandbytes适配器的设计、Comfy布局推断逻辑以及量化线性层的工厂模式。对于review中提出的两个正确性问题,建议在后续迭代中修复。
原始 PR · 作者 DevashishLal-CB · 合并时间 2026-06-06 07:55
OOT平台插件设备检测修复与导入优化
此 PR 是硬件抽象层 RFC 的第一步落地,值得关注其设计取舍。对于平台集成者,建议精读 `device_mixin.py` 和 `device_config.py` 的变更以了解接口约定。对于核心开发者,注意后续需要清理剩余的延迟导入和硬编码检查。
原始 PR · 作者 maodoudou168 · 合并时间 2026-06-06 06:43
为自适应推测解码增加 batch size 感知的独立 EMA 与步长切换
该 PR 扩展了自适应推测解码的核心能力,设计上考虑了向后兼容和性能优化(CUDA 图裁剪)。代码质量较高,测试覆盖充分。建议所有涉及推测解码的开发者精读,尤其是 `AdaptiveStepSlot` 和 `AdaptiveController` 的设计,以及 CUDA 图裁剪的实现思路。
实验性快速 LoRA 路径:融合 TRT-LLM MoE + 双流重叠,FP8/NVFP4 吞吐提升 1.7x
该 PR 技术含量高,**值得精读**。核心设计(融合 MoE + LoRA 双流重叠、Split-K 融合、JIT 内核生成)为高性能 LoRA 推理提供了范本。Review 过程严格保障默认路径安全,是实验性功能落地的最佳实践。建议团队在后续重构中关注:1) 将 `*_temp` 包合并到正式模块;2) 补充单元测试和 CI 集成;3) 扩展支持更多模型和硬件。
支持 DSV32 中 NextN = 2/4 的 DG 原生路径
值得精读。该 PR 展示了如何利用 DeepGEMM 原生多 token 接口优化计算密集型 kernel,尤其是 `_build_paged_mqa_schedule_2d_ctx_lens` 的布局选择逻辑和 `use_dg_native` 的 fallback 设计,对类似 speculative decoding 加速场景有参考价值。