Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 12:47 同步状态：空闲下次计划：2026-05-31 13:47

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-18

#40160 [Bugfix] Fix k_proj's bias for GLM-ASR

原始 PR · 作者 rishaps · 合并时间 2026-04-18 13:34

缺陷修复重要性 5.61 洞察度 4.00

修复 GLM-ASR 模型在 CPU 后端因 k_proj 偏置未初始化导致的数值溢出问题。

该 PR 是针对性强的 bugfix，代码变更简洁，适合快速浏览以了解 GLM-ASR 模型加载的特殊处理。值得关注的设计决策是如何通过辅助函数 `_create_fake_bias_for_k_proj` 解耦权重修补逻辑，保持 load_weights 方法清晰。建议结合 PR body 中的测试脚本理解问题复现和验证过程。

bugfixmodelmulti-modality

#40189 [Doc] Fix outdated source reference comment in anthropic/serving.py

原始 PR · 作者 z1ying · 合并时间 2026-04-18 13:31

文档重要性 3.91 洞察度 1.00

修复 Anthropic 服务文件头注释中的过时源码引用链接。

该 PR 变更简单直接，无需深入技术审查。对于希望了解 Anthropic API 服务实现与 OpenAI 服务之间关联的开发者，可以快速浏览更新后的注释以获取正确的源码参考链接。

documentationfrontend

#38405 [Frontend] Add multimodal support to /inference/v1/generate endpoint

原始 PR · 作者 nithinvc · 合并时间 2026-04-18 11:31

功能重要性 8.56 洞察度 6.00

为解耦推理端点添加多模态支持，实现渲染到生成的零客户端转换。

建议开发者和架构师精读 `vllm/entrypoints/serve/disagg/mm_serde.py` 的序列化实现，关注整数张量处理和Msgpack配置，以及 `tests/entrypoints/serve/disagg/test_serving_multimodal_tokens.py` 的端到端测试设计，以理解多模态数据流的集成方式。

frontendfeaturemulti-modality

#39845 [Doc] Add Realtime Transcription section to supported_models.md

原始 PR · 作者 z1ying · 合并时间 2026-04-18 11:26

文档重要性 2.34 洞察度 2.00

为支持模型文档新增实时转录模型章节，并修复API文档中的错误交叉引用。

该PR是纯粹的文档更新，不涉及代码逻辑，因此对于关注核心架构或性能优化的工程师而言，无需深入阅读。但对于负责多模态/语音模型支持、前端API文档维护或用户支持的团队成员，建议浏览变更内容以了解实时转录模型的正式文档化状态。值得关注的设计决策是文档结构：将实时转录作为独立章节（而非并入现有转录章节），这反映了该功能（流式WebSocket端点）与批量转录API的本质区别。

documentationmulti-modality

#40143 [Core] Reduce mm scheduler, get_num_embed overhead

原始 PR · 作者 milesial · 合并时间 2026-04-18 11:25

性能优化重要性 6.04 洞察度 5.00

通过将 embeds_cumsum 缓存从 torch.Tensor 改为 Python list，减少多模态调度器开销。

该 PR 值得精读，特别是关注如何通过缓存类型优化来减少 Python 与 torch 之间的转换开销，以及如何处理边界条件以确保健壮性。设计决策体现了性能与代码简洁性的权衡。

performancemulti-modality

#39844 [XPU] fix all_reduce all-zero accuracy issue under torch.compile

原始 PR · 作者 chaojun-zhang · 合并时间 2026-04-18 10:33

缺陷修复重要性 5.86 洞察度 6.00

修复 XPU 平台在 torch.compile 模式下 all_reduce 返回全零的精度问题。

该 PR 值得精读，因为它揭示了 torch.compile 在优化 in-place 操作时可能导致的隐蔽精度问题，并展示了通过 out-of-place 操作规避编译器优化的实用技巧。关注点：条件克隆的逻辑设计（`torch.compiler.is_compiling()`）和类型提示的添加如何提升代码健壮性。

xpubugfixkernel

#40178 [CI] Speed up test_fused_marlin_moe

原始 PR · 作者 mgoin · 合并时间 2026-04-18 10:26

测试重要性 6.09 洞察度 6.00

通过优化测试用例生成逻辑，大幅缩短 Marlin MoE 融合内核测试的执行时间。

该 PR 是典型的测试优化案例，值得负责 CI 效率和 MoE 内核开发的工程师精读。重点关注其如何通过定义代表性场景来替代穷举组合，以及如何根据生产代码逻辑修正测试过滤条件。这为其他耗时长的参数化测试提供了优化思路。同时，应审阅 `MARLIN_MOE_SCENARIOS` 列表的完备性，确保关键维度（如各种量化格式、专家数量、并行配置）已被覆盖。

testmoeperformance

#39984 [XPU]fake impl for xpu fp8_gemm

原始 PR · 作者 xinyu-intel · 合并时间 2026-04-18 08:53

功能重要性 6.17 洞察度 4.00

为 XPU 平台添加 fp8_gemm 的假实现以支持 torch.compile。

此 PR 值得关注其假实现的设计模式，但需注意形状处理可能存在的风险。建议阅读 `vllm/_xpu_ops.py` 文件，了解如何为自定义算子注册假实现以支持 torch.compile。

xpufeaturequantization

第 155 / 253 页 · 共 2019 条

上一页 1 … 153 154 155 156 157 … 253 下一页