Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-04-21 22:32 同步状态：空闲下次计划：2026-04-21 23:32

PR 列表

已合并 864 · 已分析 864

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-03

#38138 [Frontend] new online quantization frontend

原始 PR · 作者 vkuzo · 合并时间 2026-04-03 23:58

功能重要性 7.00 洞察度 6.00

新增在线量化前端，支持FP8 per-tensor和per-block量化及灵活配置。

建议技术管理者和核心工程师精读此PR，特别关注resolve_online_quant_config函数的配置解析逻辑和OnlineQuantizationConfig.get_quant_method的量化方法选择策略。这些设计决策体现了模块化和可扩展性，值得在类似功能开发中借鉴。

frontendquantizationfeature

#38558 [KVConnector] Skip `register_kv_caches` on profiling

原始 PR · 作者 NickLucche · 合并时间 2026-04-03 23:40

缺陷修复重要性 3.00 洞察度 4.00

在性能分析时跳过KV连接器的KV缓存注册，避免潜在问题。

该PR变更简单直接，适合快速浏览以了解KV连接器在分析模式下的特殊处理。值得关注的是设计决策：通过显式跳过非必要操作来避免潜在问题，这种防御性编程模式在类似场景中值得借鉴。对于深入理解KV连接器机制，可结合相关PR（如#38698）一起阅读。

bugfixv1kv-connector

#38670 [Bugfix] Fix AWQ models batch invariance issues

原始 PR · 作者 YM2132 · 合并时间 2026-04-03 22:54

缺陷修复重要性 6.00 洞察度 6.00

修复 AWQ 量化模型在批量不变模式下的兼容性问题，启用确定性推理。

建议工程师精读此 PR，以理解量化模型与批量不变性的集成方式，以及性能与确定性的设计权衡。关注动态共享内存检查的实现和导入优化，这些是值得学习的技术细节。

bugfixquantizationv1

#38342 [XPU] bump up xpu-kernel v0.1.5, transpose moe weights

原始 PR · 作者 mayuyuace · 合并时间 2026-04-03 22:10

基础设施重要性 4.00 洞察度 4.00

升级XPU内核到v0.1.5并在vllm中处理MOE权重转置，适配XPU接口变更。

建议技术管理者关注XPU平台适配的持续演进，工程师可精读此PR以学习平台特定代码的编写方式和内存优化权衡。变更虽小，但涉及关键权重处理逻辑和代码安全讨论，值得作为平台适配案例参考。

xpuv1ci

#38325 [Kernel] Add swapAB support for SM120 CUTLASS blockwise FP8 GEMM

原始 PR · 作者 Nekofish-L · 合并时间 2026-04-03 21:49

性能优化重要性 6.00 洞察度 6.00

为SM120架构CUTLASS块级FP8 GEMM添加swapAB支持，优化小M维度性能。

值得精读以学习 CUTLASS 优化技巧和 swapAB 策略，特别关注启发式选择的 trade-offs 和模板元编程实现细节。工程师可参考此 PR 了解如何通过转置优化小维度 GEMM 性能。

performancefp8quantization

#38361 [GDN] Eliminate GPU->CPU sync in prepare_chunk_indices during prefill

原始 PR · 作者 arpera · 合并时间 2026-04-03 21:38

性能优化重要性 7.00 洞察度 6.00

消除GDN prefill中GPU→CPU同步，提升推理性能。

该PR值得精读，特别是对于关注高性能推理、GPU-CPU同步优化和缓存机制的工程师。关键设计决策包括预计算策略避免同步、参数传递链设计权衡（可选参数vs.缓存）、以及常量提取提升可维护性，可借鉴于其他需要消除设备同步的场景。

performancev1refactor

#38825 [Intel][Triton] Support `round_int8` for Intel backend

原始 PR · 作者 mieshkiwrk · 合并时间 2026-04-03 20:47

功能重要性 4.00 洞察度 3.00

为Intel Triton后端添加round_int8函数支持，完善XPU平台量化工具链。

该PR实现简单直接，值得快速浏览以了解XPU平台支持模式。关注点： 1. 学习如何为不同平台扩展Triton JIT函数 2. 了解量化工具链中平台特定实现的模式 3. 注意后续应补充相应测试用例

xpuquantizationv1

#38904 [XPU][CI] Skip test_topp_only and test_topk_and_topp cases on Intel GPU in CI

原始 PR · 作者 zxd1997066 · 合并时间 2026-04-03 20:44

基础设施重要性 2.00 洞察度 1.00

在Intel GPU CI中跳过test_topp_only和test_topk_and_topp测试用例，修复语法错误。

该PR变更简单直接，无需深入精读。值得关注的点是：1. 了解为什么这些测试在Intel GPU上需要跳过，是否有计划修复它们。2. 观察后续是否有相关PR修复测试本身而非跳过。对于CI维护者，建议确认跳过是临时措施还是长期方案。

civ1

第 58 / 108 页 · 共 864 条

上一页 1 … 56 57 58 59 60 … 108 下一页

支持 Prhub ♥