Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-13 21:47 同步状态：空闲下次计划：2026-06-13 22:47

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-04

#44509 [Bugfix] MiniCPM-V-4.6 video inference crash: placeholder count mismatches visual embedding count

原始 PR · 作者 tc-mb · 合并时间 2026-06-04 23:22

缺陷修复重要性 6.88 洞察度 5.00

修复 MiniCPM-V-4.6 视频推理崩溃

值得精读，这是一个典型的 bugfix PR，展示了多模态 pipeline 中数据流不一致的排查与修复思路。设计决策（优先使用已处理尺寸、在数据流源头记录实际尺寸）具有通用借鉴意义。建议合并后为 MiniCPM-V-4.6 添加视频回归测试。

bugfixmulti-modalitymodel

#43519 Add model support for granite speech plus

原始 PR · 作者 zvik · 合并时间 2026-06-04 22:47

功能重要性 8.57 洞察度 5.00

支持 Granite Speech Plus 模型推理

值得精读的设计模式：通过提取工厂方法 `_build_encoder` 实现子类化复用，避免了复制粘贴基类 `__init__`。同时，该 PR 展示了在 vLLM 中添加新多模态模型的标准流程：模型代码、注册、测试、文档联动。对于需要扩展语音模型变体的开发者有参考价值。

featuremodelmulti-modality

#44340 [Quant] Support compressed-tensors WNA8O8Int linears and WNInt embeddings

原始 PR · 作者 mgoin · 合并时间 2026-06-04 22:40

功能重要性 9.00 洞察度 6.00

支持 compressed-tensors WNA8O8Int 线性层和 WNInt embedding

值得精读，特别是 Triton kernel 实现（`_dequant_gather_kernel`）和混合精度内核工厂模式（`choose_mp_linear_kernel`）。理解如何集成新量化方案到现有架构具有参考价值。

quantizationfeaturekernel

#43827 [DSv4] Adding TRTLLM gen attention kernel

原始 PR · 作者 zyongye · 合并时间 2026-06-04 22:35

功能重要性 9.18 洞察度 6.00

为 DSv4 添加 FlashInfer TRTLLM-gen 稀疏 MLA 后端

值得精读：该 PR 展示了一个复杂的注意力后端集成案例，包括后端注册、元数据缓存、单次 vs 分拆调用权衡、FP8 scale 处理。建议关注 `flashinfer_sparse.py` 的设计模式和 `attention.py` 中的 dtype 解析函数，可作为自定义后端的参考。

deepseekattentionfeature

#44255 [ROCm][CI] Specifying time outs for the lm eval models

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-06-04 22:35

缺陷修复重要性 4.55 洞察度 3.00

为 ROCm GSM8K 测试添加可配置超时

该 PR 是典型的 CI 稳定性修复，代码改动简单，值得关注的设计决策是平台感知的配置回退机制（优先使用 `rocm_request_timeout_seconds`，否则使用 `request_timeout_seconds` 默认值），这种模式可复用。

rocmtestbugfix

#44046 [ROCm][CI] Stabilize memory-release in the Hybrid model generation tests

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-06-04 22:34

测试重要性 6.67 洞察度 4.00

用上下文管理器稳定ROCm Hybrid模型生成测试

该 PR 虽然只改动测试文件，但体现了良好的测试资源管理实践：使用上下文管理器确保资源释放，以及平台特定的等待策略。值得 CI 和测试维护者阅读，同样的模式可推广到其他类似的测试场景。

rocmtestci/build

#43625 [ROCm] Bump fastsafetensors to v0.3.2 from PyPI, remove git source build

原始 PR · 作者 wjabbour · 合并时间 2026-06-04 22:30

基础设施重要性 4.97 洞察度 4.00

fastsafetensors 升级至 v0.3.2，移除 ROCm git 构建

该 PR 属于基础设施清理，改动量小但意义明确，建议合并。但建议在合并前确认非 x86 平台（如 ARM）上 fastsafetensors v0.3.2 的兼容性，或保留 platform_machine 过滤。

rocmci/buildinfra

#42554 [PD][Nixl] Mamba prefix caching mode support

原始 PR · 作者 NickLucche · 合并时间 2026-06-04 21:41

功能重要性 6.55 洞察度 5.00

PD Nixl 连接器支持 Mamba 前缀缓存模式

值得精读，了解分布式前缀缓存在 Mamba 模型上的实现模式。但建议关注边缘情况的处理，考虑后续修复断言和切片逻辑。

v1kv-connectorfeature

第 41 / 312 页 · 共 2496 条

上一页 1 … 39 40 41 42 43 … 312 下一页