Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 16:54 同步状态：空闲下次计划：2026-05-31 17:54

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-15

#34844 [Bugfix] Fix tool_calls Iterable consumed when debug logging is enabled

原始 PR · 作者 wojciech-wais · 合并时间 2026-04-15 16:32

缺陷修复重要性 7.68 洞察度 5.00

修复调试日志启用时工具调用迭代器被消耗导致失败的问题。

建议工程师精读 `_materialize_tool_calls_before` 和 `_materialize_tool_calls_after` 的实现，理解 Pydantic v2 验证器在 before/after 模式下的作用时机，以及如何组合使用以防御一次性迭代器消耗。同时，可浏览测试文件以掌握工具调用序列化的边界用例。

bugfixfrontendtool-calling

#39851 [CI][NIXL] Fix PD CI breakage: pin nixl-cu{12,13} versions

原始 PR · 作者 ZhanqiuHu · 合并时间 2026-04-15 14:50

基础设施重要性 2.16 洞察度 4.00

通过锁定nixl-cu12和nixl-cu13版本来修复PD CI中断问题。

建议快速审阅此PR以了解CI依赖管理中的临时修复策略。关注review中讨论的依赖设计权衡，以及如何避免类似问题在未来发生。

cibugfixkv-connector

#37699 [Bugfix] Respect VLLM_WEIGHT_OFFLOADING_DISABLE_PIN_MEMORY in prefetch offloader

原始 PR · 作者 he-yufeng · 合并时间 2026-04-15 11:43

缺陷修复重要性 6.88 洞察度 5.00

修复prefetch卸载器忽略禁用固定内存环境变量，防止GH200系统OOM。

该PR值得精读，展示了如何通过共享助手函数消除重复代码并统一跨模块行为，关注DRY原则和跨平台兼容性的设计决策。

bugfixperformance

#38901 refactor hard coded device string in test files under tests/compile tests/quantization tests/models and tests/model_executor

原始 PR · 作者 wincent8 · 合并时间 2026-04-15 11:02

重构重要性 5.41 洞察度 4.00

重构测试文件中硬编码的CUDA设备字符串为动态平台检查，提升跨平台测试兼容性。

对于负责测试基础设施或跨平台开发的工程师，此PR值得浏览以学习vLLM的平台抽象层使用。关注点：设备类型动态获取的实践（如`current_platform.device_type`）、测试跳过条件的设计权衡，以及如何批量重构测试代码以提升可维护性。

refactortestci

#38479 [Attention Backend] TurboQuant: 2-bit KV cache compression with 4x capacity

原始 PR · 作者 vibhavagarwal5 · 合并时间 2026-04-15 10:57

功能重要性 9.36 洞察度 7.00

TurboQuant 注意力后端实现 2-4 倍 KV 缓存压缩

此 PR 引入了 KV 缓存压缩的一个有前途的方向。由于其巨大的性能和影响范围，建议在充分审查后合并。社区讨论揭示了关键的质量问题和修复，应优先集成已验证的修复（FP8 值默认，3位打包错误，Ampere FP8 兼容性）。考虑将 TurboQuant 作为 v1 的可选功能，并在文档中明确限制（仅全注意力，不适用于混合模型）。对于内存受限的生产场景，它提供了巨大的价值。

featurequantizationattention

#39773 [Model Runner V2] Disable piecewise cudagraph mode fallback for eagle draft decodes

原始 PR · 作者 TheEpicDolphin · 合并时间 2026-04-15 08:47

缺陷修复重要性 6.27 洞察度 6.00

修复Eagle推测解码中CUDA图模式问题，防止FlashInfer后端读取越界元数据。

该PR值得精读，特别是对于关注CUDA图优化和推测解码的工程师。重点关注`init_cudagraph_manager`方法中的模式选择逻辑，以及`_prepare_eagle_inputs_kernel`中的缓冲区填充实现，这些设计决策揭示了CUDA图模式与注意力后端元数据之间的微妙依赖关系。

bugfixnvidiaspeculative-decoding

#37226 [CI] Add PyTorch nightly build and test pipeline

原始 PR · 作者 atalman · 合并时间 2026-04-15 08:13

基础设施重要性 5.60 洞察度 5.00

添加PyTorch nightly构建与测试流水线，支持CUDA 13.0和递归依赖处理。

建议CI维护者关注此PR，特别是构建脚本中的安全问题和参数设计，以及依赖处理的递归变更，这些对于确保nightly测试的稳定性和安全性至关重要。

cinvidia

#39825 [Bugfix] Disable FlashInfer CUTLASS MoE on SM121 (DGX Spark)

原始 PR · 作者 mgoin · 合并时间 2026-04-15 07:03

缺陷修复重要性 5.51 洞察度 4.00

修复SM121 GPU上FlashInfer CUTLASS MoE因缺少Relu2模板而崩溃的问题。

该PR值得快速浏览，重点关注设备支持检测的设计模式：如何通过精确匹配设备能力（SM120 vs. SM121）来处理上游库的特定版本缺陷。这是一个典型的“降级回退”策略案例，展示了在依赖第三方库时如何保持系统稳定性。

bugfixnvidiamoe

第 167 / 253 页 · 共 2020 条

上一页 1 … 165 166 167 168 169 … 253 下一页