Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

speculative-decoding 相关 PR

2026-04-16

#39951 [Model Runner V2][BugFix] fix num_sampled dtype for probabilistic rej…

作者 TheEpicDolphin · 合并时间 2026-04-16 09:09

缺陷修复 重要性 4.53 洞察度 3.00

修复概率拒绝采样器中num_sampled张量数据类型不匹配导致的Triton编译错误。

bugfix v1 speculative-decoding

该PR值得快速浏览,重点关注数据类型一致性在GPU内核交互中的重要性。虽然变更简单,但揭示了在混合Python/Triton代码中类型匹配的常见陷阱,可作为类似问题的参考案例。

#39747 Update registry for Nemotron-v3 VL Nano/Super

作者 collinmccarthy · 合并时间 2026-04-16 07:09

功能 重要性 5.94 洞察度 5.00

为Nemotron-v3 VL Nano/Super模型添加注册表条目和MTP支持。

feature model v1 speculative-decoding multi-modality

该PR值得精读,特别是 `hf_config_override` 函数中的配置提升逻辑,展示了如何在多模态模型中处理推测解码支持;对于需要添加新模型别名的开发,可借鉴注册表和测试的联动模式。

#38300 [Speculative Decoding] Add DFlash speculators config parsing

作者 ZhanqiuHu · 合并时间 2026-04-16 04:22

功能 重要性 8.12 洞察度 5.00

添加DFlash speculators配置解析,支持直接加载speculators训练的DFlash模型。

speculative-decoding v1 qwen feature test

建议工程师精读`update_dflash`函数以理解配置映射机制,这是扩展speculators支持的关键模式;并关注`qwen3_dflash.py`中的条件初始化策略,这是内存优化的设计决策。测试文件提供了完整的端到端验证示例,值得参考以了解DFlash speculators的正确性测试方法。

#39838 Bug/test eagle dp v2

作者 Monishver11 · 合并时间 2026-04-16 01:48

基础设施 重要性 2.39 洞察度 3.00

从H100分布式测试块中移除不稳定的Eagle DP测试,以缓解CI失败。

ci bugfix v1 speculative-decoding

此PR变更简单,主要价值在于了解CI测试维护策略。建议关注: 1. **后续修复**:跟踪团队如何调查和修复Eagle DP测试的批次不变性问题。 2. **配置管理**:注意CI配置中“可选”与“非可选”测试块的区别,以及跨块测试一致性的重要性。 3. **关联PR**:可结合历史PR(如#39773关于Eagle推测解码的bugfix)理解Eagle相关功能的演进。

#36029 [SpecDecode][Benchmark] Add SPEED-bench support to benchmarking CLI

作者 talorabr · 合并时间 2026-04-16 00:00

功能 重要性 6.54 洞察度 5.00

为基准测试 CLI 添加 SPEED-Bench 数据集支持,扩展推测解码评估能力。

feature performance speculative-decoding documentation v1

建议工程师阅读此 PR 以了解如何将新数据集集成到 vLLM 基准测试框架,重点关注 SpeedBench 类的设计(继承 CustomDataset、参数传递方式)和 CLI 参数扩展模式(使用 add_argument_group 分组)。适合学习基准测试模块的架构。

2026-04-15
缺陷修复 重要性 6.27 洞察度 6.00

修复Eagle推测解码中CUDA图模式问题,防止FlashInfer后端读取越界元数据。

v1 bugfix nvidia speculative-decoding attention

该PR值得精读,特别是对于关注CUDA图优化和推测解码的工程师。重点关注`init_cudagraph_manager`方法中的模式选择逻辑,以及`_prepare_eagle_inputs_kernel`中的缓冲区填充实现,这些设计决策揭示了CUDA图模式与注意力后端元数据之间的微妙依赖关系。

重构 重要性 6.02 洞察度 5.00

简化混合模型推测解码中接受令牌计数的逻辑,提升性能与可读性。

v1 refactor performance hybrid speculative-decoding

该PR值得精读,展示了如何通过简化算法逻辑提升性能。关注点: - 设计决策:基于领域知识(令牌连续性)优化计算,避免过度工程。 - 性能验证:通过详细基准测试(延迟、服务基准、准确性)确保改进有效。 - 可读性提升:注释更新帮助理解新逻辑。

2026-04-14

#37588 [Model Runner V2] Add full cuda graph support for eagle prefill

作者 TheEpicDolphin · 合并时间 2026-04-14 07:01

功能 重要性 7.00 洞察度 6.00

为Eagle推测解码预填充阶段添加完整CUDA图支持以提升性能。

v1 nvidia cudagraph speculative-decoding performance

建议精读此PR,特别关注speculator.py中的prefill方法和cudagraph管理器的设计,学习如何扩展CUDA图支持到可变长度输入场景,以及性能权衡的决策。