Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-13 18:37 同步状态:空闲 下次计划:2026-06-13 19:37

PR 列表

更多筛选
2026-06-04

#44534 Add GH token to docs build pre run check

原始 PR · 作者 hmellor · 合并时间 2026-06-04 20:43

基础设施 重要性 3.11 洞察度 2.00

为文档构建预检查添加 GH token 提升 API 速率限制

可直接合入,无需额外测试。推荐熟悉文档构建流程的人关注环境变量 `GITHUB_TOKEN` 的配置。

#44205 [Bugfix] fix EVS for qwen3-vl

原始 PR · 作者 garrygale · 合并时间 2026-06-04 19:06

缺陷修复 重要性 5.50 洞察度 2.00

修复 Qwen3-VL EVS 设备不匹配错误

这是一个针对特定模型特定功能的紧急修复,改动经过验证且明确。建议快速合并。

重构 重要性 9.00 洞察度 6.00

统一Mamba线性注意力层基类,合并Bailing/MiniMax实现

该PR是vLLM中Mamba Attention模块系统重构的重要步骤,展示了如何利用可插拔层(`PluggableLayer`)和多继承(`MambaBase`)进行统一接口设计。建议关注`LinearAttention`基类的设计模式,以及通过注册机制解耦具体实现的方法。对于后续重构系列的其他PR(如SSM注意力重构)有参考价值。

#42646 [perf] Add gemma RMS AR fusion

原始 PR · 作者 jiahanc · 合并时间 2026-06-04 16:33

性能优化 重要性 8.55 洞察度 6.00

集成 Flashinfer Gemma RMSNorm AR 融合,优化 Qwen3.5 推理吞吐

值得精读,特别是模式匹配的注册技巧和 `extra_check` 的使用,以及如何通过 `weight_bias` 抽象 Gemma 的特异性。展示了在 vLLM 编译 passes 中扩展新融合模式的标准流程。

缺陷修复 重要性 7.54 洞察度 4.00

修复 Kimi-K2.5 FlashInfer ViT 元数据处理错误

建议合并,尤其如果团队维护 Kimi-K2.5 多模态支持。值得关注的设计决策是避免 GPU 张量上的 `.tolist()` 调用以及将 `grid_thws` 保持 CPU 固定,这是性能优化通用经验。

性能优化 重要性 8.62 洞察度 7.00

DeepSeek V4 滑动窗口 KV cache 选择性保留与回收优化

值得精读,尤其是 `prepend_n` + `free_blocks` 的回收优先级设计以及 `_validate_prefix_cache_retention_interval` 的输入校验模式。建议在 DeepSeek V4 以外的滑动窗口模型(如 Mistral)上验证兼容性,并考虑将 retention 机制推广到 Mamba 组(当前 `TODO`).

参与讨论