Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

deepseek 相关 PR

2026-04-16

#38928 [Bugfix][Perf] Indexer upcast WK to BF16 for fusion

作者 benchislett · 合并时间 2026-04-16 04:39

缺陷修复 重要性 7.67 洞察度 6.00

向上转换DeepSeek索引器WK权重至BF16以保持融合,提升FP8量化模型性能。

bugfix performance deepseek model quantization

建议核心开发者精读此PR,重点关注`_try_load_fp8_indexer_wk`中FP8反量化与缓冲区同步的实现细节,以及移除`is_fp4_ckpt`后统一融合路径的设计权衡,这对理解vLLM中量化与性能优化交互有较高价值。

2026-04-15

#39752 add warning when FP8 KV cache misses prefill query quantization

作者 qiching · 合并时间 2026-04-15 02:43

功能 重要性 5.91 洞察度 3.00

为FP8 KV缓存未启用预填充查询量化时添加启动警告,提升用户可发现性。

v1 performance deepseek nvidia attention

该PR值得快速浏览,重点关注`determine_prefill_query_data_type()`函数中的条件判断逻辑和日志设计。它展示了如何在保持向后兼容的前提下,通过日志提升功能可发现性的典型模式。对于涉及性能调优的开发者,可参考其如何平衡短序列与长上下文的默认行为。

2026-04-09

#37980 [UX] Integrate DeepGEMM into vLLM wheel via CMake

作者 mgoin · 合并时间 2026-04-09 09:56

基础设施 重要性 6.00 洞察度 6.00

通过CMake集成DeepGEMM到vLLM wheel,移除手动安装步骤,提升用户体验。

v1 deepseek ci

建议技术管理者精读cmake/external_projects/deepgemm.cmake文件以理解构建设计决策,如使用FetchContent_Populate避免冲突。工程师可关注deep_gemm.py中的导入优先级机制,这对类似库集成有借鉴价值。

性能优化 重要性 6.00 洞察度 6.00

为 DeepSeek-V3.2 设计 persistent TopK 调度器,统一内核并动态分发路径以提升长序列性能。

performance v1 deepseek nvidia kernel

建议技术管理者和工程师精读此 PR,重点关注 persistent scheduler 的设计思路、动态路径选择策略以及 CUDAGraph 安全性的实现方式。对于内核开发者,可借鉴其统一内核与动态分发的优化模式。

2026-04-07

#39098 [MRV2] Fix hanging issue with DeepSeek V3.2 by setting `skip_attn=False`

作者 WoosukKwon · 合并时间 2026-04-07 03:55

缺陷修复 重要性 5.00 洞察度 4.00

修复MRV2在DeepSeek V3.2模型上的挂起问题,确保注意力元数据正确准备。

bugfix v1 deepseek performance

该PR值得精读,重点关注:1. _dummy_run中skip_attn默认值变更的设计决策;2. 注意力元数据准备与CUDA图模式的交互逻辑;3. review中关于断言与错误处理的讨论,可作为错误处理最佳实践的参考。

2026-04-04

#38870 [Bugfix] Fix DSV32 weight loading

作者 zyongye · 合并时间 2026-04-04 10:57

缺陷修复 重要性 6.00 洞察度 6.00

修复 DeepSeek MTP 和 V2 模型在 FP8 量化下权重加载的 KeyError bug。

bugfix deepseek model quantization

该 PR 值得精读,特别是对于从事模型加载和量化集成的工程师。关注条件逻辑的设计决策、null-safety 的处理方式,以及 review 中讨论的 guard 条件优化。

2026-04-02

#33529 Triton MLA perf fixes

作者 koush · 合并时间 2026-04-02 21:40

性能优化 重要性 6.00 洞察度 7.00

修复Triton MLA在长上下文下性能下降问题,显著提升Deepseek和Kimi模型推理速度。

performance v1 deepseek model

建议工程师精读此PR,学习Triton内核优化技巧(如缓存修饰符和内存访问模式)和动态资源分配策略;关注讨论中的设计决策,如分割计算启发式和CUDA图兼容性问题处理。

#38684 [Perf] DSV3.2 Indexer Fused Weights Projection

作者 benchislett · 合并时间 2026-04-02 11:34

性能优化 重要性 6.00 洞察度 7.00

融合DeepSeek V3.2索引器的WK和Weights_Proj投影层,提升解码性能。

performance deepseek v1 refactor

该PR值得精读,尤其是关注性能优化与量化兼容性之间的权衡。设计决策中值得关注的是:1) 选择融合而非重叠投影的性能权衡;2) 为保持性能优势而强制quant_config=None带来的量化兼容性牺牲;3) 权重加载逻辑的健壮性改进空间。建议结合PR#38870的修复来理解完整解决方案。