Prhub
← 返回仓库列表

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-04-18 18:09 同步状态:空闲 下次计划:2026-04-18 19:09

PR 列表

已合并 790 · 已分析 790
更多筛选
2026-03-08
功能 重要性 6.00 洞察度 6.00

为Flashinfer MLA Sparse attention backend添加FP8 KV缓存支持,实现约14%吞吐提升。

建议技术管理者和工程师精读此PR,特别是关注mla_attention.py中的dtype转换逻辑和flashinfer_mla_sparse.py的backend扩展,以理解fp8 kv cache的设计权衡和性能优化策略。

功能 重要性 7.00 洞察度 6.00

实现GPU加速的ngram推测解码,并与异步调度兼容,提升推理性能。

该PR值得精读,重点关注GPU kernel的设计(如torch.compile优化和向量化操作)、async scheduling集成中的性能权衡(如内存与速度平衡),以及review中讨论的代码重构决策(如逻辑迁移以减少核心文件影响)。

2026-03-05

#35472 [torch.compile] Stop lazily compiling

作者 zou3519 · 合并时间 2026-03-05 04:13

重构 重要性 6.00 洞察度 7.00

将 Inductor 编译从懒编译改为提前编译,修复编译时间测量问题并简化编译流程。

建议技术管理者和工程师精读此 PR,特别关注 `VllmBackend.__call__` 和 `piecewise_backend.py` 中的设计决策,如提前编译的实现、内存分配处理以及日志时间测量的权衡,这些对于优化编译流程有重要借鉴价值。

2026-03-04

#35727 [model] support FireRedASR2

作者 AllenDou · 合并时间 2026-03-04 11:41

功能 重要性 6.00 洞察度 6.00

添加 FireRedASR2 语音识别模型支持,扩展 vLLM 多模态功能。

该 PR 值得精读,尤其关注模型如何继承 Qwen2 架构并集成多模态接口(如 SupportsMultiModal 和 SupportsTranscription),以及 review 中讨论的设备无关性和批处理修复,可学习多模态模型在 vLLM 中的实现模式。

重构 重要性 8.00 洞察度 8.00

重构 MoE 内核框架,引入 monolithic kernel 概念以支持 TRTLLM 内核。

建议技术管理者和核心工程师精读此 PR,重点关注以下方面: 1. **设计决策**:类层次结构从继承转向组合,以及 `maybe_make_prepare_finalize` 的统一接口设计,值得学习。 2. **关键文件**:仔细阅读 `modular_kernel.py` 和 `experts/trtllm_fp8_moe.py`,以理解 monolithic kernel 的实现机制。 3. **测试用例**:参考更新后的测试文件,了解如何适配新接口,确保自身代码的兼容性。

2026-02-27
性能优化 重要性 6.00 洞察度 7.00

为 Qwen3 VL ViT 视觉注意力添加 Flashinfer cuDNN 后端,提升编码器性能19.3%。

该 PR 值得精读,特别关注:1. 如何为多模态视觉编码器集成新注意力后端的设计决策,包括元数据计算和桶优化策略。2. 从 review 讨论中学习代码重构和模块化最佳实践,例如将通用逻辑移至 MMEncoderAttention 类。3. 性能优化技巧,如避免 cuDNN 图重编译的桶机制,可应用于其他类似场景。

参与讨论