Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-13 19:39 同步状态：空闲下次计划：2026-06-13 20:39

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-04

#44476 [Bugfix][Compile] Guard per_token_group_fp8_quant lookup on non-CUDA platforms

原始 PR · 作者 QiliangCui2023 · 合并时间 2026-06-04 21:31

缺陷修复重要性 5.53 洞察度 4.00

修复非 CUDA 平台的 per_token_group_fp8_quant 导入崩溃

值得快速合并的 bugfix。展示了在跨后端环境中正确守卫平台相关操作的最佳实践：使用 `hasattr` 而非平台枚举来检查操作存在性。

bugfixcompilationinfra

#44534 Add GH token to docs build pre run check

原始 PR · 作者 hmellor · 合并时间 2026-06-04 20:43

基础设施重要性 3.11 洞察度 2.00

为文档构建预检查添加 GH token 提升 API 速率限制

可直接合入，无需额外测试。推荐熟悉文档构建流程的人关注环境变量 `GITHUB_TOKEN` 的配置。

documentationinfraci/build

#42443 Refactor CT NVFP4 linear to use a single class

原始 PR · 作者 dsikka · 合并时间 2026-06-04 20:25

重构重要性 8.87 洞察度 5.00

合并 W4A16 与 W4A4 NVFP4 线性层为一个类

refactorquantizationcleanup

#44205 [Bugfix] fix EVS for qwen3-vl

原始 PR · 作者 garrygale · 合并时间 2026-06-04 19:06

缺陷修复重要性 5.50 洞察度 2.00

修复 Qwen3-VL EVS 设备不匹配错误

这是一个针对特定模型特定功能的紧急修复，改动经过验证且明确。建议快速合并。

bugfixqwenmulti-modality

#43556 [Attention] Mamba attention module refactor - LINEAR

原始 PR · 作者 wangxiyuan · 合并时间 2026-06-04 18:45

重构重要性 9.00 洞察度 6.00

统一Mamba线性注意力层基类，合并Bailing/MiniMax实现

该PR是vLLM中Mamba Attention模块系统重构的重要步骤，展示了如何利用可插拔层（`PluggableLayer`）和多继承（`MambaBase`）进行统一接口设计。建议关注`LinearAttention`基类的设计模式，以及通过注册机制解耦具体实现的方法。对于后续重构系列的其他PR（如SSM注意力重构）有参考价值。

refactormodelattention

#42646 [perf] Add gemma RMS AR fusion

原始 PR · 作者 jiahanc · 合并时间 2026-06-04 16:33

性能优化重要性 8.55 洞察度 6.00

集成 Flashinfer Gemma RMSNorm AR 融合，优化 Qwen3.5 推理吞吐

值得精读，特别是模式匹配的注册技巧和 `extra_check` 的使用，以及如何通过 `weight_bias` 抽象 Gemma 的特异性。展示了在 vLLM 编译 passes 中扩展新融合模式的标准流程。

performancecompilationrefactor

#44493 [Bugfix]Fix Kimi-K2.5 FlashInfer ViT metadata

原始 PR · 作者 Kevin-XiongC · 合并时间 2026-06-04 16:14

缺陷修复重要性 7.54 洞察度 4.00

修复 Kimi-K2.5 FlashInfer ViT 元数据处理错误

建议合并，尤其如果团队维护 Kimi-K2.5 多模态支持。值得关注的设计决策是避免 GPU 张量上的 `.tolist()` 调用以及将 `grid_thws` 保持 CPU 固定，这是性能优化通用经验。

bugfixmodelmulti-modality

#43447 [Prefix Caching] DeepSeekv4 - Support selective prefix-cache retention for sliding-window KV cache

原始 PR · 作者 wzhao18 · 合并时间 2026-06-04 15:48

性能优化重要性 8.62 洞察度 7.00

DeepSeek V4 滑动窗口 KV cache 选择性保留与回收优化

值得精读，尤其是 `prepend_n` + `free_blocks` 的回收优先级设计以及 `_validate_prefix_cache_retention_interval` 的输入校验模式。建议在 DeepSeek V4 以外的滑动窗口模型（如 Mistral）上验证兼容性，并考虑将 retention 机制推广到 Mamba 组（当前 `TODO`）.

deepseekperformancev1

第 42 / 312 页 · 共 2496 条

上一页 1 … 40 41 42 43 44 … 312 下一页