废弃 Transformers v4 兼容代码路径
值得快速阅览,了解项目的版本依赖弃用策略和 review 讨论中关于时间线妥协的决策过程。
A high-throughput and memory-efficient inference and serving engine for LLMs
废弃 Transformers v4 兼容代码路径
值得快速阅览,了解项目的版本依赖弃用策略和 review 讨论中关于时间线妥协的决策过程。
新增 MiMo-V2.5 模型系列,含 Omni 与 MTP 推测解码
强烈建议仔细 review 权重加载逻辑(特别是 `mimo_v2.py` 和 `mimo_v2_mtp.py`)中手动分片的替代方案,优先使用 vLLM 原生的 `weight_loader`。同时,应在文档中明确标注音频功能所需的额外依赖,并修复 cuda 硬编码问题以保障硬件兼容性。尽管 PR 已合并,但上述风险点可能影响生产部署的稳定性,建议尽快跟进修正。
修复 MiniMaxM2 在 KV head 数少于 TP 大小时 k_norm 权重分片错误
该 PR 值得阅读以了解 TP 下权重分片的细节,特别是 `weight_shard_world_size` 参数的设计,对于其他需要自定义分片的模块有参考价值。建议在类似场景(如分组 query attention)中复用此模式。
添加 system_fingerprint 字段支持四种模式
该 PR 代码质量较高,测试覆盖充分,review 中提出的问题均已解决。推荐阅读 `fingerprint.py` 了解模块设计,以及 `completion/serving.py` 中流式指纹注入的精确控制。整体设计考虑了兼容性、性能和信息安全,值得参考。
重组 examples 目录为场景化分类
建议开发者和文档编写者关注新的示例目录结构,后续添加示例时应参考此分类。对于已部署的文档站点,需检查所有示例链接并更新。此 PR 体现了以用户使用场景为中心的设计思路,值得在项目其他部分推广。
Docker 安装 libcublas-dev 修复 FlashInfer JIT 编译
建议精读:该 PR 是一个典型的基础设施修复,展示了 Dockerfile 中依赖包选择对运行时 JIT 编译的影响。值得关注 review 中关于注释位置的问题,确保构建稳定性。
为 DeepSeek V4 共享专家添加激活 clamp 限制
建议精读该 PR,特别是 CUDA kernel 的模板化 clamp 扩展方式,以及 Python 层 `CustomOp` 的注册模式。该设计模式可供其他需要数值 clamp 的激活函数参考。
移除 Qwen3-VL 无效的 deepstack 边界检查
值得快速合并的 bugfix,变更简洁明确。但建议确认调用方是否总能保证 num_tokens 合法,或考虑添加防御性断言以避免静默 bug。
参与讨论