Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 19:59 同步状态：空闲下次计划：2026-05-31 20:59

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-14

#38938 Bug/test eagle dp v0

原始 PR · 作者 Monishver11 · 合并时间 2026-04-14 04:50

缺陷修复重要性 5.00 洞察度 6.00

修复EAGLE DP推测解码测试的flaky问题，通过补全batch invariance检查和适配SM<90设备限制。

推荐精读此PR，特别是batch invariance在embedding层的实现细节，以及设备能力检测与优化禁用模式的设计决策。对于涉及推测解码、分布式测试或性能优化的开发者，此PR提供了处理类似flaky问题和权衡性能与确定性的参考案例。

bugfixspeculative-decodingtest

#39650 [Bugfix][Pooling] Fix silent weight corruption with buffer-reusing iterators

原始 PR · 作者 pedramr · 合并时间 2026-04-14 03:37

缺陷修复重要性 6.00 洞察度 6.00

修复 pooling 模型权重加载中因迭代器缓冲区重用导致的静默数据损坏。

推荐所有涉及模型加载或 pooling 功能的工程师精读此 PR，理解迭代器急切求值 vs 惰性求值的陷阱，以及如何安全处理缓冲区重用场景。关注适配器模式中的权重加载逻辑。

bugfixpoolingmodel

#38435 [Core][Metrics] expose waiting request breakdown via labeled metric (capacity/deferred)

原始 PR · 作者 mukesh-hai · 合并时间 2026-04-14 03:30

功能重要性 6.77 洞察度 6.00

新增 waiting 请求按原因拆分的 labeled metric

值得所有 vLLM 运维和开发人员精读。该 PR 展示了如何在不破坏向后兼容的前提下，用 Prometheus labeled metric 拆解复合指标。`SchedulerStats` 和 `loggers` 之间的分工清晰，是内部状态向外暴露的良好范例。设计讨论（标签化 vs. 增加新 gauge）体现了对 Prometheus 最佳实践的尊重。

featureschedulerperformance

#39717 [Bugfix] Reject non-nvfp4 dtypes when using the flashinfer_nvlink_one_sided all2all backend

原始 PR · 作者 tlrmchlsmth · 合并时间 2026-04-14 03:13

缺陷修复重要性 5.00 洞察度 4.00

修复flashinfer_nvlink_one_sided后端因工作空间大小硬编码导致的非nvfp4数据类型静默数据损坏问题。

该PR值得快速浏览以了解数据类型与后端兼容性的重要约束。虽然实现简单，但揭示了分布式计算中工作空间硬编码可能导致的静默错误模式，对于处理量化或自定义后端的工程师有警示价值。关注点：错误信息的设计是否足够清晰可操作。

bugfixquantization

#38052 [Doc] Fix Python-only build 404 fallback guidance

原始 PR · 作者 Yuyi-Ao · 合并时间 2026-04-14 03:09

文档重要性 2.42 洞察度 2.00

修正预编译 wheel 安装回退文档，推荐 nightly

对于文档维护者，此 PR 展示了如何响应社区反馈、平衡简单性与稳定性的良好实践。但整体变更较小，除非你负责文档或开发者体验，否则无需深读。

documentationbugfix

#39705 [Bugfix][Kernel][ROCm] Fix triton_w4a16 scales mismatch when BLOCK_K > group_size

原始 PR · 作者 JartX · 合并时间 2026-04-14 02:29

缺陷修复重要性 5.00 洞察度 4.00

修复Triton W4A16 GEMM内核中BLOCK_K大于group_size时量化scale错配导致的静默数据损坏问题。

该PR值得精读，因为它揭示了一个量化内核中容易忽略的正确性边界条件。关注点：1. 量化内核中BLOCK_K与group_size的依赖关系设计。2. 静默数据损坏的检测和修复方法。3. 性能与正确性的权衡（限制BLOCK_K可能影响效率）。

bugfixrocmkernel

#39572 [Misc] Multi-turn benchmark output performance json

原始 PR · 作者 NickLucche · 合并时间 2026-04-14 02:15

功能重要性 3.00 洞察度 3.00

为多轮对话基准测试添加 JSON 性能数据导出功能，提升用户体验。

该 PR 变更简单直接，适合快速浏览以了解基准测试工具的小幅改进。对于关注基准测试基础设施或性能监控的工程师，值得关注其如何通过命令行参数扩展和 JSON 序列化来增强用户体验。设计决策上，注意 review 中关于错误处理和文档准确性的讨论，体现了对用户体验细节的重视。

performance

#35356 [Bugfix] Use is_integrated to detect UMA GPUs for memory reporting

原始 PR · 作者 haosdent · 合并时间 2026-04-14 02:07

缺陷修复重要性 6.00 洞察度 5.00

修复UMA系统上GPU内存报告错误，使用is_integrated属性替代硬编码检测。

此PR值得精读，展示了如何通过平台抽象层改进硬件检测机制，避免硬编码带来的维护负担。关注is_integrated_gpu方法的引入和在MemorySnapshot中的集成方式。

bugfixnvidia

第 173 / 253 页 · 共 2020 条

上一页 1 … 171 172 173 174 175 … 253 下一页