Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 10:25 同步状态：空闲下次计划：2026-06-01 11:25

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-03

#38062 Bump helion dependency from 0.3.2 to 0.3.3

原始 PR · 作者 gmagogsfm · 合并时间 2026-04-03 01:59

基础设施重要性 2.00 洞察度 1.00

将Helion可选依赖从0.3.2升级到0.3.3，同步更新CI配置。

这是一个简单的依赖版本更新PR，无需深入阅读。对于关注AMD平台Helion内核开发的工程师，可以留意新版本可能带来的inductor融合功能改进。对于大多数开发者，只需知道依赖版本已更新即可。

cleanup

#38791 [Bugfix] Fix test mocks after SM100 restriction in #38730

原始 PR · 作者 stecasta · 合并时间 2026-04-03 01:12

缺陷修复重要性 3.00 洞察度 2.00

修复因#38730更改API导致的TRT-LLM注意力测试mock失效问题。

该PR变更简单直接，无需精读。值得关注的是其中揭示的CI依赖管理问题（如#38792所提），这对测试稳定性和CI可靠性有借鉴意义。

bugfixtestcleanup

#38690 [FA4] Update flash-attention to latest upstream FA4

原始 PR · 作者 LucasWilkinson · 合并时间 2026-04-03 01:02

基础设施重要性 3.00 洞察度 2.00

更新Flash-Attention 4依赖至最新上游版本，修复已知问题。

该PR变更简单，无需精读，但值得关注其作为依赖更新的一部分，以确保CI测试通过且无回归。对于维护者，建议监控后续相关PR（如#36763的修复验证）以确认更新效果。

cleanup

#38292 [CI][ROCm] Add gpt-oss w4a8 in CI

原始 PR · 作者 BowenBao · 合并时间 2026-04-03 00:06

基础设施重要性 3.00 洞察度 2.00

在ROCm CI中新增gpt-oss模型的w4a8量化配置测试。

该PR本身非常简单，不值得精读，但值得关注其作为GPT-Oss模型量化支持CI测试体系构建的起点。建议关注后续相关的PR（如#37128中提到的CK后端路由、Triton后端路由启用等），这些将涉及核心量化逻辑的修改。

rocmgpt-ossci

#38620 [Frontend] Re-enable running MaxSim on GPU

原始 PR · 作者 noooop · 合并时间 2026-04-03 00:03

功能重要性 6.00 洞察度 6.00

重新启用GPU上的MaxSim计算以提升late-interaction scoring性能。

建议技术管理者和工程师精读此PR，重点关注GPU scoring的实现设计（flash_late_interaction方法）、CPU/GPU路径选择权衡以及review中修复的bug，以理解性能优化策略和前端架构演进。

frontendperformancefeature

2026-04-02

#33529 Triton MLA perf fixes

原始 PR · 作者 koush · 合并时间 2026-04-02 21:40

性能优化重要性 6.00 洞察度 7.00

修复Triton MLA在长上下文下性能下降问题，显著提升Deepseek和Kimi模型推理速度。

建议工程师精读此PR，学习Triton内核优化技巧（如缓存修饰符和内存访问模式）和动态资源分配策略；关注讨论中的设计决策，如分割计算启发式和CUDA图兼容性问题处理。

performancedeepseekmodel

#38427 [Bugfix] Enable batch-invariant Triton matmul on all Ampere GPUs (SM 8x)

原始 PR · 作者 YM2132 · 合并时间 2026-04-02 21:29

缺陷修复重要性 6.00 洞察度 5.00

修复 batch invariance 在 Ampere GPU 上因 Triton matmul 未启用而失败的问题。

建议精读，以了解 batch invariance 机制中设备能力检查的设计决策，以及如何通过家族匹配扩展兼容性，适合关注核心路径优化和 GPU 支持的工程师。

bugfixperformancecleanup

#38788 [Model] Add support for Cheers multimodal model

原始 PR · 作者 bingshuailiu · 合并时间 2026-04-02 21:01

功能重要性 6.00 洞察度 5.00

新增Cheers多模态模型支持，扩展vLLM视觉语言模型库。

建议技术管理者和工程师精读此PR，以了解vLLM中多模态模型集成的标准模式，特别是如何处理VAE组件和配置继承。关注`cheers.py`中的模型结构设计，以及review中提到的代码清理最佳实践。

featuremodelmulti-modality

第 207 / 253 页 · 共 2021 条

上一页 1 … 205 206 207 208 209 … 253 下一页