Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-05-31 01:25 同步状态:空闲 下次计划:2026-05-31 02:25

PR 列表

更多筛选
2026-04-27

#40389 Deprecate support for Transformers v4

原始 PR · 作者 hmellor · 合并时间 2026-04-27 23:19

其他 重要性 4.90 洞察度 5.00

废弃 Transformers v4 兼容代码路径

值得快速阅览,了解项目的版本依赖弃用策略和 review 讨论中关于时间线妥协的决策过程。

#40967 [Model] Add MiMo-V2.5 support

原始 PR · 作者 Isotr0py · 合并时间 2026-04-27 21:26

功能 重要性 9.18 洞察度 6.00

新增 MiMo-V2.5 模型系列,含 Omni 与 MTP 推测解码

强烈建议仔细 review 权重加载逻辑(特别是 `mimo_v2.py` 和 `mimo_v2_mtp.py`)中手动分片的替代方案,优先使用 vLLM 原生的 `weight_loader`。同时,应在文档中明确标注音频功能所需的额外依赖,并修复 cuda 硬编码问题以保障硬件兼容性。尽管 PR 已合并,但上述风险点可能影响生产部署的稳定性,建议尽快跟进修正。

缺陷修复 重要性 7.11 洞察度 4.00

修复 MiniMaxM2 在 KV head 数少于 TP 大小时 k_norm 权重分片错误

该 PR 值得阅读以了解 TP 下权重分片的细节,特别是 `weight_shard_world_size` 参数的设计,对于其他需要自定义分片的模块有参考价值。建议在类似场景(如分组 query attention)中复用此模式。

功能 重要性 8.46 洞察度 6.00

添加 system_fingerprint 字段支持四种模式

该 PR 代码质量较高,测试覆盖充分,review 中提出的问题均已解决。推荐阅读 `fingerprint.py` 了解模块设计,以及 `completion/serving.py` 中流式指纹注入的精确控制。整体设计考虑了兼容性、性能和信息安全,值得参考。

#36464 [Examples] Resettle generate examples.

原始 PR · 作者 noooop · 合并时间 2026-04-27 15:48

重构 重要性 5.36 洞察度 4.00

重组 examples 目录为场景化分类

建议开发者和文档编写者关注新的示例目录结构,后续添加示例时应参考此分类。对于已部署的文档站点,需检查所有示例链接并更新。此 PR 体现了以用户使用场景为中心的设计思路,值得在项目其他部分推广。

缺陷修复 重要性 3.12 洞察度 4.00

Docker 安装 libcublas-dev 修复 FlashInfer JIT 编译

建议精读:该 PR 是一个典型的基础设施修复,展示了 Dockerfile 中依赖包选择对运行时 JIT 编译的影响。值得关注 review 中关于注释位置的问题,确保构建稳定性。

#40950 [DSV4] Add silu clamp limit to shared expert

原始 PR · 作者 zyongye · 合并时间 2026-04-27 15:37

功能 重要性 8.87 洞察度 6.00

为 DeepSeek V4 共享专家添加激活 clamp 限制

建议精读该 PR,特别是 CUDA kernel 的模板化 clamp 扩展方式,以及 Python 层 `CustomOp` 的注册模式。该设计模式可供其他需要数值 clamp 的激活函数参考。

缺陷修复 重要性 6.29 洞察度 3.00

移除 Qwen3-VL 无效的 deepstack 边界检查

值得快速合并的 bugfix,变更简洁明确。但建议确认调用方是否总能保证 num_tokens 合法,或考虑添加防御性断言以避免静默 bug。

参与讨论