Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 01:25 同步状态：空闲下次计划：2026-05-31 02:25

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-27

#40389 Deprecate support for Transformers v4

原始 PR · 作者 hmellor · 合并时间 2026-04-27 23:19

其他重要性 4.90 洞察度 5.00

废弃 Transformers v4 兼容代码路径

值得快速阅览，了解项目的版本依赖弃用策略和 review 讨论中关于时间线妥协的决策过程。

cleanupdocumentation

#40967 [Model] Add MiMo-V2.5 support

原始 PR · 作者 Isotr0py · 合并时间 2026-04-27 21:26

功能重要性 9.18 洞察度 6.00

新增 MiMo-V2.5 模型系列，含 Omni 与 MTP 推测解码

强烈建议仔细 review 权重加载逻辑（特别是 `mimo_v2.py` 和 `mimo_v2_mtp.py`）中手动分片的替代方案，优先使用 vLLM 原生的 `weight_loader`。同时，应在文档中明确标注音频功能所需的额外依赖，并修复 cuda 硬编码问题以保障硬件兼容性。尽管 PR 已合并，但上述风险点可能影响生产部署的稳定性，建议尽快跟进修正。

modelfeaturemulti-modality

#38191 [Bugfix] Fix k_norm weight sharding in MiniMaxM2Attention when total_num_kv_heads < tp_size

原始 PR · 作者 wxsIcey · 合并时间 2026-04-27 20:57

缺陷修复重要性 7.11 洞察度 4.00

修复 MiniMaxM2 在 KV head 数少于 TP 大小时 k_norm 权重分片错误

该 PR 值得阅读以了解 TP 下权重分片的细节，特别是 `weight_shard_world_size` 参数的设计，对于其他需要自定义分片的模块有参考价值。建议在类似场景（如分组 query attention）中复用此模式。

bugfixmodelcompilation

#40537 Add system_fingerprint field to OpenAI-compatible API responses

原始 PR · 作者 simon-mo · 合并时间 2026-04-27 16:17

功能重要性 8.46 洞察度 6.00

添加 system_fingerprint 字段支持四种模式

该 PR 代码质量较高，测试覆盖充分，review 中提出的问题均已解决。推荐阅读 `fingerprint.py` 了解模块设计，以及 `completion/serving.py` 中流式指纹注入的精确控制。整体设计考虑了兼容性、性能和信息安全，值得参考。

frontendfeaturetest

#36464 [Examples] Resettle generate examples.

原始 PR · 作者 noooop · 合并时间 2026-04-27 15:48

重构重要性 5.36 洞察度 4.00

重组 examples 目录为场景化分类

建议开发者和文档编写者关注新的示例目录结构，后续添加示例时应参考此分类。对于已部署的文档站点，需检查所有示例链接并更新。此 PR 体现了以用户使用场景为中心的设计思路，值得在项目其他部分推广。

refactordocumentationcleanup

#39855 [Bugfix] Install libcublas-dev in Dockerfile for FlashInfer CuTe DSL JIT

原始 PR · 作者 esmeetu · 合并时间 2026-04-27 15:47

缺陷修复重要性 3.12 洞察度 4.00

Docker 安装 libcublas-dev 修复 FlashInfer JIT 编译

建议精读：该 PR 是一个典型的基础设施修复，展示了 Dockerfile 中依赖包选择对运行时 JIT 编译的影响。值得关注 review 中关于注释位置的问题，确保构建稳定性。

ci/buildbugfixnvidia

#40950 [DSV4] Add silu clamp limit to shared expert

原始 PR · 作者 zyongye · 合并时间 2026-04-27 15:37

功能重要性 8.87 洞察度 6.00

为 DeepSeek V4 共享专家添加激活 clamp 限制

建议精读该 PR，特别是 CUDA kernel 的模板化 clamp 扩展方式，以及 Python 层 `CustomOp` 的注册模式。该设计模式可供其他需要数值 clamp 的激活函数参考。

deepseekfeaturekernel

#40932 [Bugfix] Remove invalid deepstack boundary check for Qwen3-VL

原始 PR · 作者 Isotr0py · 合并时间 2026-04-27 15:27

缺陷修复重要性 6.29 洞察度 3.00

移除 Qwen3-VL 无效的 deepstack 边界检查

值得快速合并的 bugfix，变更简洁明确。但建议确认调用方是否总能保证 num_tokens 合法，或考虑添加防御性断言以避免静默 bug。

bugfixqwenmulti-modality

第 126 / 253 页 · 共 2018 条

上一页 1 … 124 125 126 127 128 … 253 下一页