Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 21:01 同步状态：空闲下次计划：2026-05-31 22:01

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-12

#39592 [Pooling] Disable async scheduling by default for pooling models

原始 PR · 作者 njhill · 合并时间 2026-04-12 15:23

缺陷修复重要性 5.00 洞察度 5.00

为池化模型默认禁用异步调度，避免TTFT性能下降。

建议精读此PR以理解vLLM中调度策略与模型类型的耦合关系。关注点：1) 配置系统中模型类型与调度策略的交互逻辑；2) 异步调度对不同工作负载的性能影响权衡；3) 未来Runner V2架构可能如何解决当前限制。

poolingschedulerperformance

#37688 [HMA] [KVEvent] Enable GPU-side KV events for HMA

原始 PR · 作者 hickeyma · 合并时间 2026-04-12 15:01

功能重要性 6.00 洞察度 6.00

为 HMA 启用 GPU 端 KV 事件，添加组 ID 字段支持前缀缓存路由。

该 PR 值得精读，尤其关注设计决策如字段简化（从列表到标量）和范围控制（仅 GPU 端），这些体现了在复杂系统中渐进式开发的权衡。工程师可以学习如何优雅地扩展事件系统、处理可选字段的哈希兼容性，以及通过测试驱动确保功能正确。建议重点查看 `kv_events.py` 和 `block_pool.py` 的变更逻辑。

kv-connectorfeature

#39344 fix(kimi_k25): resolve media_placeholder_token_id from tokenizer

原始 PR · 作者 r266-tech · 合并时间 2026-04-12 12:10

缺陷修复重要性 6.61 洞察度 5.00

修复 Kimi-K2.5 多模态推理 token ID 不一致

**值得精读**：虽然改动量小，但精准解决了 transformers v5 升级带来的隐性兼容问题，是适配上游变化的最佳实践示范。设计上遵循了“从源头验证”而非硬编码的原则，并考虑了 UNK 回退，值得类似场景参考。

bugfixmodelmulti-modality

#37731 Support FP8 KVCache on XPU

原始 PR · 作者 xinyu-intel · 合并时间 2026-04-12 11:53

功能重要性 6.00 洞察度 5.00

为 XPU 平台添加 FP8 KV 缓存支持，扩展量化推理能力。

建议 XPU 开发者和量化功能关注者精读此 PR，了解 FlashAttention 后端如何适配不同硬件以及 descale 参数的传递方式。值得关注的设计决策包括平台检测逻辑的权衡和未来接口统一的方向。

xpuquantizationattention

#39555 [ROCm][CI/Build] Fix memory cleanup in MM test

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-04-12 11:13

基础设施重要性 3.00 洞察度 3.00

修复ROCm CI中多模态内存泄漏测试的配置问题，确保测试稳定运行。

该PR属于常规CI配置修复，无需深入阅读代码。值得关注的是ROCm平台上多模态测试的特殊要求（需要spawn多进程方法），这对跨平台测试配置有参考价值。

rocmci

#38316 [XPU][CT] support per-channel quantization in xpu fp8 linear method

原始 PR · 作者 yma11 · 合并时间 2026-04-12 10:46

功能重要性 5.00 洞察度 4.00

为XPU平台FP8线性方法添加每通道量化支持，扩展模型兼容性。

该PR值得精读，特别是XPU平台量化支持的设计决策。关注点包括：1) can_implement方法中量化键的扩展逻辑；2) 权重转置处理的必要性及其对性能的影响；3) 与review中提到的内核选择框架的潜在整合点。

xpuquantizationkernel

#38815 [Quant] add CompressedTensorsW8A8Mxfp8 for linear and MoE layers

原始 PR · 作者 EdalatiAli · 合并时间 2026-04-12 07:21

功能重要性 6.00 洞察度 6.00

新增压缩张量后端 MXFP8 量化方案，支持线性层和 MoE 层。

该 PR 值得精读，特别是量化方案检测和 MoE 方法实现，展示了如何扩展压缩张量后端以支持新格式。关注点包括：设计上如何集成 MXFP8 到现有量化框架，review 中讨论的模块性权衡，以及内核选择逻辑的演变。对于涉及量化或高性能推理的开发者，这是学习 vLLM 量化扩展机制的案例。

quantizationfeaturekernel

#38919 [Bugfix] Runtime driver check for cuMemcpyBatchAsync in swap_blocks_batch

原始 PR · 作者 Etelis · 合并时间 2026-04-12 01:02

缺陷修复重要性 6.00 洞察度 6.00

修复swap_blocks_batch中cuMemcpyBatchAsync的运行时兼容性问题，避免在旧CUDA驱动和CUDA 13.0上崩溃。

建议工程师精读此PR，重点关注cuGetProcAddress的用法、函数指针类型定义（BatchFn）、以及fallback机制的设计。对于技术管理者，此PR展示了如何平衡性能优化与兼容性，值得在类似跨版本支持场景中借鉴。

bugfixnvidiakernel

第 177 / 253 页 · 共 2020 条

上一页 1 … 175 176 177 178 179 … 253 下一页