Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 06:37 同步状态:空闲 下次计划:2026-06-04 07:37

PR 列表

更多筛选
2026-03-04

#35727 [model] support FireRedASR2

原始 PR · 作者 AllenDou · 合并时间 2026-03-04 11:41

功能 重要性 6.00 洞察度 6.00

添加 FireRedASR2 语音识别模型支持,扩展 vLLM 多模态功能。

该 PR 值得精读,尤其关注模型如何继承 Qwen2 架构并集成多模态接口(如 SupportsMultiModal 和 SupportsTranscription),以及 review 中讨论的设备无关性和批处理修复,可学习多模态模型在 vLLM 中的实现模式。

重构 重要性 8.00 洞察度 8.00

重构 MoE 内核框架,引入 monolithic kernel 概念以支持 TRTLLM 内核。

建议技术管理者和核心工程师精读此 PR,重点关注以下方面: 1. **设计决策**:类层次结构从继承转向组合,以及 `maybe_make_prepare_finalize` 的统一接口设计,值得学习。 2. **关键文件**:仔细阅读 `modular_kernel.py` 和 `experts/trtllm_fp8_moe.py`,以理解 monolithic kernel 的实现机制。 3. **测试用例**:参考更新后的测试文件,了解如何适配新接口,确保自身代码的兼容性。

2026-02-27
性能优化 重要性 6.00 洞察度 7.00

为 Qwen3 VL ViT 视觉注意力添加 Flashinfer cuDNN 后端,提升编码器性能19.3%。

该 PR 值得精读,特别关注:1. 如何为多模态视觉编码器集成新注意力后端的设计决策,包括元数据计算和桶优化策略。2. 从 review 讨论中学习代码重构和模块化最佳实践,例如将通用逻辑移至 MMEncoderAttention 类。3. 性能优化技巧,如避免 cuDNN 图重编译的桶机制,可应用于其他类似场景。

参与讨论