Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 10:58 同步状态：空闲下次计划：2026-06-04 11:58

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-15

#42607 Update Intel Xeon model list and vLLM Benchmark Suite BKMs

原始 PR · 作者 louie-tsai · 合并时间 2026-05-15 13:14

文档重要性 4.79 洞察度 2.00

更新 Intel Xeon 模型列表和 CPU 基准测试配置

这是一个常规的维护性 PR，如果关心 CPU 后端支持进展和性能基准测试配置，值得阅读以了解新增的模型和测试策略变化。设计上无显著亮点，但配置更新体现了对覆盖率和简化性的权衡。

documentationtestcpu

#41674 [Bugfix] Fix inverted condition causing thinking_token_budget to be silently ignored

原始 PR · 作者 JasonKeyiL · 合并时间 2026-05-15 12:48

缺陷修复重要性 5.93 洞察度 4.00

修复 thinking_token_budget 因条件反转被忽略的 bug

建议阅读该 PR 的重点在于如何发现并确认一个被掩盖的逻辑错误。开发者在类似情况下应避免依赖外部条件的副作用来掩盖逻辑错误，而应编写明确的测试以暴露问题。该修复值得参考。

bugfixv1test

#42705 [Model] Support InternS2 Preview

原始 PR · 作者 Isotr0py · 合并时间 2026-05-15 12:30

功能重要性 7.95 洞察度 4.00

新增 InternS2 Preview 模型支持

值得阅读，展示了如何通过继承已有模型快速集成新模型，以及推测解码配置的模式。但需注意 `text_config` 的潜在问题，建议实际使用中验证。

featuremodelmulti-modality

#40119 [CPU][RISC-V] Add RVV-optimized attention kernels for RISC-V Vector Extension

原始 PR · 作者 lyd1992 · 合并时间 2026-05-15 12:08

功能重要性 8.59 洞察度 6.00

为 CPU 后端添加 RISC-V RVV 优化注意力核 (2.3x-3.7x)

该 PR 是跨平台支持的重要里程碑，值得架构师和 CPU 后端开发者精读。核心设计决策包括：使用编译时预处理器门控解决 ISA 可变性问题、通过 `/proc/cpuinfo` 运行时检测与 CMake 编译保持一致、以及利用空标签结构体绕开 GCC 模板编译错误的优雅方法。建议关注后续 VLEN 通用化重构。

performancev1cpu

#42660 [Bugfix] Fix incorrect chat template format for Qwen3.5

原始 PR · 作者 DarkLight1337 · 合并时间 2026-05-15 11:52

缺陷修复重要性 4.86 洞察度 4.00

修复 Qwen3.5 聊天模板格式检测错误

建议精读。该 PR 虽小，但展示了 Jinja2 AST 解析的边界情况处理，对理解 vLLM 的聊天模板自动检测机制有参考价值。

bugfixqwenfrontend

#42150 Bump llguidance to 1.7

原始 PR · 作者 ricky-chaoju · 合并时间 2026-05-15 08:35

基础设施重要性 2.17 洞察度 2.00

升级 llguidance 依赖版本至 1.7

该 PR 是标准的依赖版本升级，技术含量低但影响面明确。建议相关团队（如结构化输出、vllm-metal）确认 llguidance 1.7.x 与现有功能的兼容性。**不值得精读**，但可作为依赖管理流程的参考。

structured-outputinfraci/build

#38288 [Quant] Consolidate GPTQ: rename gptq_marlin.py to auto_gptq.py

原始 PR · 作者 chengyinie · 合并时间 2026-05-15 08:25

重构重要性 9.18 洞察度 7.00

GPTQ 量化整合：重命名模块为 auto_gptq

建议阅读本 PR 的设计决策，特别是向后兼容策略（通过保留旧名称并使用 override），以及 min_capability 调整的考量。测试中移除了 2/3 比特覆盖，团队应考虑是否在文档中明确废弃说明。如果用户依赖 2/3 比特，应保留沟通渠道。

refactorquantizationinfra

#42444 [Model Runner V2][Bug Fix][DSV4] Ensure lazy attention state initializations happen during cudagraph capture

原始 PR · 作者 TheEpicDolphin · 合并时间 2026-05-15 07:16

缺陷修复重要性 5.71 洞察度 6.00

修复 MRV2 CUDA Graph 捕获中 FlashMLA 延迟初始化问题

建议精读此 PR，它展示了 CUDA Graph 捕获中一个非常隐蔽的 bug 模式：warmup 阶段的状态修改可能影响 capture 阶段的行为。设计上，warmup 和 capture 应保持状态隔离，这个原则适用于其他类似场景。值得关注的是，修复方案没有增加额外复杂度，而是通过重新调用 factory 方法获得新状态，保持了原有架构的简洁性。

bugfixv1nvidia

第 77 / 270 页 · 共 2154 条

上一页 1 … 75 76 77 78 79 … 270 下一页