Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

feature 相关 PR

2026-04-18

#38405 [Frontend] Add multimodal support to /inference/v1/generate endpoint

作者 nithinvc · 合并时间 2026-04-18 11:31

功能 重要性 8.56 洞察度 6.00

为解耦推理端点添加多模态支持,实现渲染到生成的零客户端转换。

frontend feature v1 multi-modality kv-connector

建议开发者和架构师精读 `vllm/entrypoints/serve/disagg/mm_serde.py` 的序列化实现,关注整数张量处理和Msgpack配置,以及 `tests/entrypoints/serve/disagg/test_serving_multimodal_tokens.py` 的端到端测试设计,以理解多模态数据流的集成方式。

#39845 [Doc] Add Realtime Transcription section to supported_models.md

作者 z1ying · 合并时间 2026-04-18 11:26

文档 重要性 2.34 洞察度 1.00

在支持模型文档中添加实时转录模型章节并修复API文档中的错误链接。

documentation v1 feature

此PR是一个简单的文档完善,无需深入技术分析。对于工程师,如果正在处理实时转录相关功能或需要参考模型支持列表,可以快速浏览`supported_models.md`中的新章节以获取关键信息。对于技术管理者,此变更展示了文档维护的重要性,但无需投入额外审查精力。

#39984 [XPU]fake impl for xpu fp8_gemm

作者 xinyu-intel · 合并时间 2026-04-18 08:53

功能 重要性 6.17 洞察度 4.00

为 XPU 平台添加 fp8_gemm 的假实现以支持 torch.compile。

xpu feature v1 quantization kernel

此 PR 值得关注其假实现的设计模式,但需注意形状处理可能存在的风险。建议阅读 `vllm/_xpu_ops.py` 文件,了解如何为自定义算子注册假实现以支持 torch.compile。

#37463 [Kernel] Add MXFP4 W4A4 CUTLASS MoE kernel for SM100

作者 mgoin · 合并时间 2026-04-18 07:42

功能 重要性 9.00 洞察度 6.00

为SM100 Blackwell设备添加MXFP4 W4A4 CUTLASS MoE内核,支持量化激活与权重的高效推理。

kernel quantization nvidia feature moe

该PR值得核心内核和框架工程师精读,以理解MXFP4量化方案在MoE中的实现细节。重点关注`cutlass_moe.py`中的`run_cutlass_moe_mxfp4`函数如何协调量化、计算与尺度处理,以及`compressed_tensors_moe_w4a4_mxfp4.py`中的后端自动选择设计,这些决策对系统扩展性和性能优化有重要影响。

#40089 [Misc][UX] Map mimo reasoning and tooling parsers

作者 ywang96 · 合并时间 2026-04-18 00:49

功能 重要性 4.88 洞察度 3.00

为 MiMo-V2-Flash 模型添加推理和工具解析器映射,复用 Qwen3 实现。

v1 tool-calling feature

该 PR 变更简单,适合快速浏览以了解模型支持扩展模式。值得关注的点是复用现有解析器的设计决策,这减少了代码重复,但需确保模型兼容性。

#39291 feat: Add LoRA support for Gemma4ForConditionalGeneration

作者 allgather · 合并时间 2026-04-18 00:39

功能 重要性 5.98 洞察度 4.00

为 Gemma4 多模态模型添加 LoRA 支持,通过继承 SupportsLoRA 接口并调整模块映射。

v1 feature model multi-modality

建议技术管理者和工程师关注此 PR 以了解多模态模型 LoRA 集成的模式,特别是 `get_mm_mapping` 方法的动态调整。对于实现细节,`gemma4_mm.py` 文件是核心,值得精读以理解接口继承和模块映射的权衡。

2026-04-17

#37332 Add nvfp4 support to reshape_and_cache_flash

作者 sychen52 · 合并时间 2026-04-17 22:28

功能 重要性 8.62 洞察度 6.00

添加 NVFP4 量化支持到 KV 缓存,扩展 reshape_and_cache_flash 功能。

feature quantization nvidia v1

该 PR 值得精读,特别是 NVFP4 量化布局设计([k_data, k_scale, v_data, v_scale] 确保连续内存)和工具函数拆分逻辑,这些决策影响 kernel 实现和性能。关注 FlashInfer 后端的集成方式,以及 decode 路径不完整的后续处理。建议工程师了解新数据类型的添加流程和测试覆盖方法。

#38463 [Quantization] Consolidate experts_int8 with fp8 online quantization

作者 Josephasafg · 合并时间 2026-04-17 04:12

重构 重要性 9.00 洞察度 7.00

整合 INT8 专家量化到 FP8 在线量化框架,提取公共基类并支持新 CLI 参数。

quantization refactor feature v1 moe

建议技术管理者和工程师精读此 PR,重点关注 `OnlineMoEMethodBase` 的设计决策,它统一了在线 MoE 量化的元设备处理流程,体现了面向对象重构的优点;同时注意 review 中讨论的除零风险和命名清晰性,这些是量化系统中的常见陷阱。