Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 10:25 同步状态：空闲下次计划：2026-06-01 11:25

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-02

#30518 Don't compile vision encoder for Transformers backend

原始 PR · 作者 hmellor · 合并时间 2026-04-02 20:42

缺陷修复重要性 6.00 洞察度 6.00

修复Transformers后端错误编译视觉编码器的问题，使编译行为与vLLM后端一致。

建议技术管理者和工程师精读此PR，重点关注`_decorate_for_torch_compile`方法的实现，理解动态装饰和类修改的设计权衡。对于涉及编译或多模态模型开发的团队，这是一个了解vLLM编译系统演进的好案例，值得关注其潜在风险和改进方向。

bugfixmulti-modalityrefactor

#38378 [Feature] KV cache per-token-head INT8/FP8 quantization

原始 PR · 作者 JartX · 合并时间 2026-04-02 20:13

功能重要性 7.00 洞察度 8.00

为 Triton 注意力后端引入 KV 缓存按令牌头 INT8/FP8 量化，动态计算尺度以降低内存占用并提升性能。

建议技术管理者和工程师精读此 PR，特别关注 `vllm/v1/kv_cache_interface.py` 中的 `KVQuantMode` 设计、Triton kernels 的动态尺度计算实现以及测试中的平台兼容性处理。设计决策如 per-token-head 量化和内联尺度存储值得借鉴，但需注意未来扩展其他后端时的适配成本。

quantizationfeatureattention

#37813 [Perf] fuse kernels in gdn

原始 PR · 作者 ZJY0516 · 合并时间 2026-04-02 19:52

性能优化重要性 6.00 洞察度 6.00

融合 GDN 层的后卷积操作内核，提升 Qwen 模型推理性能。

建议技术管理者和工程师精读此 PR，关注内核融合的设计决策（如 Triton 内核的网格划分、内存布局优化）和性能权衡。特别留意 review 中讨论的数值稳定性问题，可作为未来内核开发的借鉴。

performanceqwenrefactor

#38086 [ROCm] Enable VLLM triton FP8 moe for gfx1201, tuned for Qwen3-30B-A3B-FP8 tp=2 and Qwen/Qwen3.5-35B-A3B-FP8 tp=2

原始 PR · 作者 vllmellm · 合并时间 2026-04-02 16:13

功能重要性 6.00 洞察度 5.00

为ROCm gfx12x架构启用Triton FP8 MoE后端并添加R9700调优配置。

该PR清晰地解决了一个具体的平台支持缺口，并附带了详实的性能测试数据，值得负责ROCm支持、MoE模块或性能优化的工程师精读。关注点应包括：1) `on_gfx12x`检测逻辑的实现；2) 调优配置文件的参数模式，以了解如何为特定硬件定制Triton内核；3) 性能测试方法（TTFT、TPOT、E2E Latency）和精度验证方式，可作为类似工作的范本。

performancerocmqwen

#38770 [CPU] Support gelu act in cpu_fused_moe

原始 PR · 作者 bigPYJ1151 · 合并时间 2026-04-02 14:14

功能重要性 6.00 洞察度 6.00

在CPU fused MoE内核中增加gelu激活函数支持，扩展CPU后端模型兼容性。

建议工程团队精读此PR，关注C++内核中erf计算的性能优化点，以及设计上如何统一激活函数映射模式；对于CPU优化和融合内核开发有参考价值。

featurecpuperformance

#38778 Revert "[Kernel] Add gpt-oss Router GEMM kernel (#37205)"

原始 PR · 作者 xyang16 · 合并时间 2026-04-02 13:02

缺陷修复重要性 7.00 洞察度 6.00

回滚gpt-oss路由器GEMM内核以修复gpt-oss-120b模型的准确性问题。

建议技术管理者和工程师关注此PR以理解内核准确性问题的重要性，并审查GateLinear的简化调度逻辑。值得精读的文件包括vllm/model_executor/layers/fused_moe/router/gate_linear.py和vllm/model_executor/models/gpt_oss.py，以掌握MoE路由器的回退机制和模型调整。

bugfixperformancegpt-oss

#38743 [Kernel] [Helion] Use warning_once in get_gpu_name to prevent log spam

原始 PR · 作者 gmagogsfm · 合并时间 2026-04-02 12:30

重构重要性 3.00 洞察度 3.00

将Helion内核get_gpu_name函数中的日志警告改为单次警告，避免多节点环境下的日志刷屏。

该PR变更简单直接，适合快速浏览以了解vLLM的日志最佳实践。虽然实现简单，但体现了对用户体验的细致关注，值得在涉及多节点日志处理的代码中参考。

refactorcleanup

#38750 [ROCm][Bugfix] Fix ROCm runtime failure due to missing symbol

原始 PR · 作者 gshtras · 合并时间 2026-04-02 12:30

缺陷修复重要性 4.00 洞察度 3.00

修复ROCm运行时因缺失符号导致的导入错误，通过条件编译排除未支持的量化内核。

该PR是典型的平台兼容性修复，代码变更简洁明了。建议ROCm用户或维护者精读，以理解如何通过条件编译处理平台特定符号。对于非ROCm开发者，可快速浏览以了解`USE_ROCM`宏的使用模式。关注点在于条件编译的正确性和与#32996的关联。

bugfixrocmquantization

第 208 / 253 页 · 共 2021 条

上一页 1 … 206 207 208 209 210 … 253 下一页