Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 08:22 同步状态：空闲下次计划：2026-06-01 09:22

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-03

#38899 [XPU][CI] Skip test_topk_only cases on Intel GPU in CI

原始 PR · 作者 zxd1997066 · 合并时间 2026-04-03 17:50

基础设施重要性 2.00 洞察度 2.00

在Intel GPU CI中跳过test_topk_only测试用例，修复语法错误。

该PR变更简单直接，无需深入精读。值得关注的点是CI配置中shell语法的最佳实践，以及团队对特定硬件平台测试覆盖度的处理方式。

#38585 [ROCm][CI/Build] Fix the pytest hook to properly print out the summary

原始 PR · 作者 gshtras · 合并时间 2026-04-03 17:24

缺陷修复重要性 3.00 洞察度 4.00

修复ROCm Dockerfile中pytest退出钩子，确保测试摘要正确打印且保留退出码。

该PR变更简单直接，主要价值在于展示了如何正确处理pytest退出时的缓冲区和状态码问题。对于负责CI/基础设施的工程师值得快速浏览，了解pytest钩子的正确使用模式。无需深入分析核心代码。

rocmcibugfix

#38655 Fix Nano Nemotron VL regressions

原始 PR · 作者 netanel-haber · 合并时间 2026-04-03 15:22

缺陷修复重要性 6.00 洞察度 5.00

修复 Nano Nemotron VL 模型的两个回归问题，避免配置深拷贝和 tokenizer 错误。

建议工程师精读此 PR，特别关注 nano_nemotron_vl.py 中的设计决策，如避免热路径中的处理器调用和使用配置替代提取器，这对多模态模型性能优化有借鉴意义。

bugfixmodelmulti-modality

#38872 [Misc] Clean up Gemma4 implementation

原始 PR · 作者 Isotr0py · 合并时间 2026-04-03 13:47

重构重要性 4.00 洞察度 3.00

清理Gemma4模型实现，移除硬编码退出并删除无用工具文件。

建议快速浏览此PR以了解清理点，重点关注错误处理改进和文件删除的合理性，但无需深入分析设计决策。

cleanupmodel

#38698 [MRV2][KVConnector] Fix missing build_connector_worker_meta

原始 PR · 作者 ivanium · 合并时间 2026-04-03 13:42

缺陷修复重要性 3.00 洞察度 2.00

修复MRV2路径中缺失的KV连接器工作元数据构建调用。

该PR变更简单直接，适合快速浏览以了解MRV2路径的元数据补全。值得关注的是：1) 了解KV连接器工作元数据的具体用途；2) 确认MRV1和MRV2路径在元数据处理上是否还有其他差异；3) 结合PR #31964理解完整的KVConnectorWorkerMetadata支持实现。

bugfixkv-connector

#38876 [CI/Build] Add audio deps in Dockerfile.cpu

原始 PR · 作者 bigPYJ1151 · 合并时间 2026-04-03 13:05

基础设施重要性 3.00 洞察度 3.00

在CPU Dockerfile中添加音频依赖，支持音频相关功能。

该PR变更简单直接，无需深入精读。值得关注的是review中关于Docker构建优化的建议，可作为类似场景的最佳实践参考。

cicpu

#38746 [Bug] Add e_score_correction_bias to SKIP_TENSORS

原始 PR · 作者 hao-aaron · 合并时间 2026-04-03 12:15

缺陷修复重要性 4.00 洞察度 3.00

修复MoE模型层式权重加载中e_score_correction_bias重复计数导致的加载失败问题

该PR值得MoE模型开发者和模型加载模块维护者关注，虽然变更简单，但揭示了层式加载中张量重复计数的潜在问题。建议阅读meta.py和layerwise.py的修改，理解SKIP_TENSORS机制如何用于排除特定张量。

bugfixmodel

#36298 full cudagraph for flex-attn

原始 PR · 作者 shunting314 · 合并时间 2026-04-03 12:15

性能优化重要性 6.00 洞察度 6.00

为FlexAttention后端启用完整CUDA图支持，提升推理性能。

建议技术管理者和工程师精读此PR，重点关注copy_to_persistent的实现和持久化缓冲区设计，这些决策在处理CUDA图动态张量时具有借鉴意义。同时，注意review中关于后端特定逻辑的讨论，可能提示未来架构改进方向。

cudagraphperformancefeature

第 204 / 253 页 · 共 2021 条

上一页 1 … 202 203 204 205 206 … 253 下一页