Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 10:58 同步状态：空闲下次计划：2026-06-04 11:58

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-25

#37640 [ROCm][Test] Fix ROCM_AITER_UNIFIED_ATTN attn+quant fusion test

原始 PR · 作者 vllmellm · 合并时间 2026-03-25 13:06

缺陷修复重要性 3.00 洞察度 4.00

修复 ROCM_AITER_UNIFIED_ATTN 测试中块大小错误，改用动态查询后端偏好。

建议工程师精读此 PR，以学习如何将硬编码配置替换为动态查询，从而提高代码健壮性。关注 `get_preferred_block_size` 方法的使用和测试参数化设计，这对于类似测试场景有借鉴价值。

bugfixtestrocm

#37958 [Bugfix] Fix IndexError when accessing prev_tool_call_arr in OpenAIToolParser

原始 PR · 作者 chaunceyjiang · 合并时间 2026-03-25 12:06

缺陷修复重要性 5.00 洞察度 4.00

修复 OpenAI 工具调用流式响应中访问 prev_tool_call_arr 时的索引错误，避免崩溃。

建议工程师精读此 PR 以理解流式处理中工具调用的状态管理逻辑，关注 auto_tool_called 变量的引入和条件检查的调整，这有助于避免类似索引错误；同时注意 review 中提到的死代码问题，可作为代码优化参考。

bugfixfrontendtool-calling

#37914 [Docs] Add Encoder (ViT) CUDA Graphs section to CUDA Graphs design doc

原始 PR · 作者 b-mu · 合并时间 2026-03-25 10:53

文档重要性 4.00 洞察度 3.00

为vLLM的CUDA Graphs设计文档添加Vision Encoder（ViT）CUDA Graphs详细章节。

建议快速浏览此PR以了解新功能文档，重点关注cuda_graphs_multimodal.md中的设计细节和用法示例。对于技术管理者，可参考文档结构优化模式；对于工程师，无需深入阅读代码，但值得学习文档编写实践。

documentationperformancecudagraph

#37673 [Performance] Auto-enable prefetch on NFS with RAM guard

原始 PR · 作者 arpera · 合并时间 2026-03-25 08:31

性能优化重要性 6.00 洞察度 6.00

自动在NFS文件系统上启用模型检查点预取，带RAM保护，提升加载性能。

该PR值得精读，特别关注`_is_nfs_path`和`_checkpoints_fit_in_ram`的实现细节，以及review中关于设计权衡（如条件逻辑和Docker兼容性）的讨论，这对理解vLLM在异构环境下的性能优化策略有参考价值。

performancebugfix

#37787 [Bugfix][ROCm][MoE] Fix mxfp4 oracle regressions from #37128

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-25 08:17

缺陷修复重要性 6.00 洞察度 6.00

修复 ROCm 平台上 MoE mxfp4 量化由 PR #37128 引入的回归问题，恢复 gpt-oss 功能。

建议工程师精读此 PR，重点关注 tensor 类型兼容性的设计决策（如使用 `.shape` 替代 `.size()`）和 backend 选择逻辑（如 gfx950 gate 和对齐检查）。对于 ROCm 团队，需注意 padding 处理的临时性，并监控相关后续 PR。

bugfixrocmquantization

#37924 [ROCm][CI][PD] Add Hybrid SSM integration tests to CI

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-25 07:58

基础设施重要性 4.00 洞察度 3.00

在 AMD ROCm CI 管道中添加 Hybrid SSM 集成测试步骤。

此 PR 值得快速浏览，以了解 CI 测试扩展和跨平台测试策略。关注点在于 CI 配置与硬件目标的匹配，以及如何管理不同 GPU 架构的测试覆盖。对于涉及 ROCm 或 kv-connector 开发的工程师，可参考此 PR 来设置类似测试。

rocmcikv-connector

#38044 [release] Move the rest of release jobs to release queue

原始 PR · 作者 khluu · 合并时间 2026-03-25 07:40

基础设施重要性 3.00 洞察度 2.00

将 release pipeline 中的构建作业从 postmerge 队列迁移到专用 release 队列。

变更简单，无需精读；可作为 CI 配置调整的参考，关注队列命名策略和基础设施依赖性。对于工程师，建议了解 release 和 postmerge 队列的分离目的。

#37485 [Perf] Disable inductor runtime asserts by default for serving perfor…

原始 PR · 作者 tianrengao · 合并时间 2026-03-25 07:37

性能优化重要性 6.00 洞察度 6.00

默认禁用 Inductor 运行时断言，以降低大模型前向传播的2ms开销。

该 PR 值得精读，因为它展示了在性能和调试之间的设计权衡，以及如何通过配置和环境变量提供灵活性。建议关注 __post_init__ 中的版本检查和日志级别绑定逻辑，以及测试用例的设计。

performancedocumentationtest

第 256 / 270 页 · 共 2154 条

上一页 1 … 254 255 256 257 258 … 270 下一页