Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

speculative-decoding 相关 PR

2026-04-18

#22342 [AMD] Enable DFLASH speculative decoding on ROCm

作者 andyluo7 · 合并时间 2026-04-18 04:10

功能 重要性 6.58 洞察度 5.00

在 AMD ROCm 平台上启用 DFLASH 推测解码,支持 Triton 注意力后端。

feature amd speculative-decoding run-ci

该 PR 值得精读,特别是 `dflash_worker.py` 中的后端选择逻辑和 `triton_backend.py` 中的掩码防护设计,展示了如何优雅地处理平台差异和边缘情况。关注 ROCm 检测的实现方式及其对默认行为的影响。

2026-04-17

#19545 feat(observability): add OpenTelemetry tracing for speculative decoding

作者 RichardoMrMu · 合并时间 2026-04-17 14:01

功能 重要性 7.64 洞察度 6.00

为推测解码管道添加OpenTelemetry追踪,覆盖EAGLE和NGRAM工作器的draft、verify和accept阶段。

feature observability speculative-decoding run-ci

建议技术管理者和工程师精读此PR,特别是`req_time_stats.py`中新增的追踪方法设计和`set_time_batch`的使用模式,这些展示了如何将OpenTelemetry集成到高性能推理管道中,同时保持低开销。关注设计决策如`trace_only`参数和事件放置时机,对于构建可观测性功能有借鉴价值。

#22128 Allow piecewise CUDA graph with speculative decoding

作者 narutolhy · 合并时间 2026-04-17 13:39

功能 重要性 7.80 洞察度 6.00

允许分段CUDA图与所有推测解码算法共存,提升推理性能。

speculative-decoding feature performance run-ci

建议工程师精读`piecewise_cuda_graph_runner.py`中的`can_run`方法,理解PCG与推测解码的路径隔离机制;此PR展示了如何通过验证和渐进式修复来移除保守限制,值得学习其设计权衡和测试策略。

性能优化 重要性 6.68 洞察度 5.00

优化推测解码V2模式下KV缓存页需求估算,提升内存分配准确性。

performance speculative-decoding run-ci scheduling

该PR值得精读,特别是`_new_tokens_required_next_decode_spec_v2`方法的设计,它展示了如何将底层内存分配逻辑(来自`eagle_info_v2`)集成到高层调度器中,体现了性能优化中精确估算的重要性。建议关注其与`get_alloc_len_per_decode`的协作方式,以及页对齐计算(`ceil_align`)的运用。

2026-04-16

#20989 [Fix] eagle/eagle3 speculative decoding conflicts with xgrammar in NPU

作者 ChefWu551 · 合并时间 2026-04-16 14:34

缺陷修复 重要性 6.88 洞察度 6.00

修复NPU上推测解码与XGrammar冲突,确保语法掩码正确应用。

bugfix npu speculative-decoding consistency run-ci

此PR值得精读,尤其是`xgrammar_backend.py`中设备分支的设计决策和`torch_ops/bitmask_ops.py`的回退实现,展示了如何在多硬件环境下优雅处理特定设备问题。关注review讨论中关于函数位置和命名的权衡,这对代码组织有借鉴意义。

2026-04-15

#21723 [BugFix] Fix EAGLE speculative decoding missing grammar-based finish …

作者 mingyue300 · 合并时间 2026-04-15 03:43

缺陷修复 重要性 6.29 洞察度 6.00

修复EAGLE推测解码中基于语法的请求完成检测缺失导致的调度错误。

bugfix speculative-decoding consistency

该PR值得精读,因为它揭示了推测解码中语法完成检测与请求状态同步的关键设计问题。关注点包括:验证循环内状态更新的顺序重要性,以及不同推测算法(EAGLE vs ngram)在数据结构设计上的差异如何影响错误修复范围。

2026-04-11

#22471 [Spec][Ngram] Return token counts in list_external_corpora API

作者 kpham-sgl · 合并时间 2026-04-11 12:50

功能 重要性 5.00 洞察度 4.00

将list_external_corpora API返回值扩展为包含语料库token计数的字典。

feature jit-kernel run-ci speculative-decoding

建议关注此PR的设计决策,如使用制表符分隔符避免corpus ID中的逗号问题,以及从C++到HTTP的全栈一致性更新。对于从事Ngram模块或API开发的工程师值得精读,以理解外部语料库管理的演进方向。