Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 05:34 同步状态：空闲下次计划：2026-05-31 06:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-25

#37968 [Revert] Remove CUDA torch fallbacks for fp8_mqa_logits/fp8_paged_mqa_logits_torch function

原始 PR · 作者 chaunceyjiang · 合并时间 2026-03-25 14:19

重构重要性 5.00 洞察度 6.00

移除CUDA torch fallbacks，使deep_gemm成为FP8 MQA logits的硬性要求。

建议技术管理者关注此变更对部署环境的兼容性影响，工程师应精读此PR以理解硬件支持与兼容性的设计权衡，特别是review中关于deep_gemm检查的讨论，值得借鉴用于类似决策。

refactorfp8

#37640 [ROCm][Test] Fix ROCM_AITER_UNIFIED_ATTN attn+quant fusion test

原始 PR · 作者 vllmellm · 合并时间 2026-03-25 13:06

缺陷修复重要性 3.00 洞察度 4.00

修复 ROCM_AITER_UNIFIED_ATTN 测试中块大小错误，改用动态查询后端偏好。

建议工程师精读此 PR，以学习如何将硬编码配置替换为动态查询，从而提高代码健壮性。关注 `get_preferred_block_size` 方法的使用和测试参数化设计，这对于类似测试场景有借鉴价值。

bugfixtestrocm

#37958 [Bugfix] Fix IndexError when accessing prev_tool_call_arr in OpenAIToolParser

原始 PR · 作者 chaunceyjiang · 合并时间 2026-03-25 12:06

缺陷修复重要性 5.00 洞察度 4.00

修复 OpenAI 工具调用流式响应中访问 prev_tool_call_arr 时的索引错误，避免崩溃。

建议工程师精读此 PR 以理解流式处理中工具调用的状态管理逻辑，关注 auto_tool_called 变量的引入和条件检查的调整，这有助于避免类似索引错误；同时注意 review 中提到的死代码问题，可作为代码优化参考。

bugfixfrontendtool-calling

#37914 [Docs] Add Encoder (ViT) CUDA Graphs section to CUDA Graphs design doc

原始 PR · 作者 b-mu · 合并时间 2026-03-25 10:53

文档重要性 4.00 洞察度 3.00

为vLLM的CUDA Graphs设计文档添加Vision Encoder（ViT）CUDA Graphs详细章节。

建议快速浏览此PR以了解新功能文档，重点关注cuda_graphs_multimodal.md中的设计细节和用法示例。对于技术管理者，可参考文档结构优化模式；对于工程师，无需深入阅读代码，但值得学习文档编写实践。

documentationperformancecudagraph

#37673 [Performance] Auto-enable prefetch on NFS with RAM guard

原始 PR · 作者 arpera · 合并时间 2026-03-25 08:31

性能优化重要性 6.00 洞察度 6.00

自动在NFS文件系统上启用模型检查点预取，带RAM保护，提升加载性能。

该PR值得精读，特别关注`_is_nfs_path`和`_checkpoints_fit_in_ram`的实现细节，以及review中关于设计权衡（如条件逻辑和Docker兼容性）的讨论，这对理解vLLM在异构环境下的性能优化策略有参考价值。

performancebugfix

#37787 [Bugfix][ROCm][MoE] Fix mxfp4 oracle regressions from #37128

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-25 08:17

缺陷修复重要性 6.00 洞察度 6.00

修复 ROCm 平台上 MoE mxfp4 量化由 PR #37128 引入的回归问题，恢复 gpt-oss 功能。

建议工程师精读此 PR，重点关注 tensor 类型兼容性的设计决策（如使用 `.shape` 替代 `.size()`）和 backend 选择逻辑（如 gfx950 gate 和对齐检查）。对于 ROCm 团队，需注意 padding 处理的临时性，并监控相关后续 PR。

bugfixrocmquantization

#37924 [ROCm][CI][PD] Add Hybrid SSM integration tests to CI

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-25 07:58

基础设施重要性 4.00 洞察度 3.00

在 AMD ROCm CI 管道中添加 Hybrid SSM 集成测试步骤。

此 PR 值得快速浏览，以了解 CI 测试扩展和跨平台测试策略。关注点在于 CI 配置与硬件目标的匹配，以及如何管理不同 GPU 架构的测试覆盖。对于涉及 ROCm 或 kv-connector 开发的工程师，可参考此 PR 来设置类似测试。

rocmcikv-connector

#38044 [release] Move the rest of release jobs to release queue

原始 PR · 作者 khluu · 合并时间 2026-03-25 07:40

基础设施重要性 3.00 洞察度 2.00

将 release pipeline 中的构建作业从 postmerge 队列迁移到专用 release 队列。

变更简单，无需精读；可作为 CI 配置调整的参考，关注队列命名策略和基础设施依赖性。对于工程师，建议了解 release 和 postmerge 队列的分离目的。

第 239 / 253 页 · 共 2019 条

上一页 1 … 237 238 239 240 241 … 253 下一页