Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-04-21 18:46 同步状态：空闲下次计划：2026-04-21 19:46

PR 列表

已合并 857 · 已分析 857

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-03

#38620 [Frontend] Re-enable running MaxSim on GPU

原始 PR · 作者 noooop · 合并时间 2026-04-03 00:03

功能重要性 6.00 洞察度 6.00

重新启用GPU上的MaxSim计算以提升late-interaction scoring性能。

建议技术管理者和工程师精读此PR，重点关注GPU scoring的实现设计（flash_late_interaction方法）、CPU/GPU路径选择权衡以及review中修复的bug，以理解性能优化策略和前端架构演进。

frontendv1performance

2026-04-02

#33529 Triton MLA perf fixes

原始 PR · 作者 koush · 合并时间 2026-04-02 21:40

性能优化重要性 6.00 洞察度 7.00

修复Triton MLA在长上下文下性能下降问题，显著提升Deepseek和Kimi模型推理速度。

建议工程师精读此PR，学习Triton内核优化技巧（如缓存修饰符和内存访问模式）和动态资源分配策略；关注讨论中的设计决策，如分割计算启发式和CUDA图兼容性问题处理。

performancev1deepseek

#38427 [Bugfix] Enable batch-invariant Triton matmul on all Ampere GPUs (SM 8x)

原始 PR · 作者 YM2132 · 合并时间 2026-04-02 21:29

缺陷修复重要性 6.00 洞察度 5.00

修复 batch invariance 在 Ampere GPU 上因 Triton matmul 未启用而失败的问题。

建议精读，以了解 batch invariance 机制中设备能力检查的设计决策，以及如何通过家族匹配扩展兼容性，适合关注核心路径优化和 GPU 支持的工程师。

bugfixv1performance

#38788 [Model] Add support for Cheers multimodal model

原始 PR · 作者 bingshuailiu · 合并时间 2026-04-02 21:01

功能重要性 6.00 洞察度 5.00

新增Cheers多模态模型支持，扩展vLLM视觉语言模型库。

建议技术管理者和工程师精读此PR，以了解vLLM中多模态模型集成的标准模式，特别是如何处理VAE组件和配置继承。关注`cheers.py`中的模型结构设计，以及review中提到的代码清理最佳实践。

featuremodelmulti-modality

#30518 Don't compile vision encoder for Transformers backend

原始 PR · 作者 hmellor · 合并时间 2026-04-02 20:42

缺陷修复重要性 6.00 洞察度 6.00

修复Transformers后端错误编译视觉编码器的问题，使编译行为与vLLM后端一致。

建议技术管理者和工程师精读此PR，重点关注`_decorate_for_torch_compile`方法的实现，理解动态装饰和类修改的设计权衡。对于涉及编译或多模态模型开发的团队，这是一个了解vLLM编译系统演进的好案例，值得关注其潜在风险和改进方向。

bugfixmulti-modalityv1

#38378 [Feature] KV cache per-token-head INT8/FP8 quantization

原始 PR · 作者 JartX · 合并时间 2026-04-02 20:13

功能重要性 7.00 洞察度 8.00

为 Triton 注意力后端引入 KV 缓存按令牌头 INT8/FP8 量化，动态计算尺度以降低内存占用并提升性能。

建议技术管理者和工程师精读此 PR，特别关注 `vllm/v1/kv_cache_interface.py` 中的 `KVQuantMode` 设计、Triton kernels 的动态尺度计算实现以及测试中的平台兼容性处理。设计决策如 per-token-head 量化和内联尺度存储值得借鉴，但需注意未来扩展其他后端时的适配成本。

quantizationv1feature

#37813 [Perf] fuse kernels in gdn

原始 PR · 作者 ZJY0516 · 合并时间 2026-04-02 19:52

性能优化重要性 6.00 洞察度 6.00

融合 GDN 层的后卷积操作内核，提升 Qwen 模型推理性能。

建议技术管理者和工程师精读此 PR，关注内核融合的设计决策（如 Triton 内核的网格划分、内存布局优化）和性能权衡。特别留意 review 中讨论的数值稳定性问题，可作为未来内核开发的借鉴。

performanceqwenv1

#38086 [ROCm] Enable VLLM triton FP8 moe for gfx1201, tuned for Qwen3-30B-A3B-FP8 tp=2 and Qwen/Qwen3.5-35B-A3B-FP8 tp=2

原始 PR · 作者 vllmellm · 合并时间 2026-04-02 16:13

功能重要性 6.00 洞察度 5.00

为ROCm gfx12x架构启用Triton FP8 MoE后端并添加R9700调优配置。

该PR清晰地解决了一个具体的平台支持缺口，并附带了详实的性能测试数据，值得负责ROCm支持、MoE模块或性能优化的工程师精读。关注点应包括：1) `on_gfx12x`检测逻辑的实现；2) 调优配置文件的参数模式，以了解如何为特定硬件定制Triton内核；3) 性能测试方法（TTFT、TPOT、E2E Latency）和精度验证方式，可作为类似工作的范本。

performancerocmqwen

第 62 / 108 页 · 共 857 条

上一页 1 … 60 61 62 63 64 … 108 下一页

支持 Prhub ♥