Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 09:24 同步状态：空闲下次计划：2026-06-01 10:24

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-03

#38838 [CI] Fix `test_nixl_connector`

原始 PR · 作者 MatthewBonanni · 合并时间 2026-04-03 08:52

缺陷修复重要性 2.00 洞察度 1.00

修复KV连接器单元测试中的类型错误，将cache_dtype从torch.bfloat16改为字符串'bfloat16'。

此PR变更简单，无需精读。工程师可关注以了解测试接口类型一致性，但无复杂设计决策。建议结合PR #38378查看引入问题的上下文。

bugfixkv-connectortest

#38832 [Bugfix] Fix NVFP4+MTP crash: force unquantized mtp.fc for Qwen3.5

原始 PR · 作者 vadiklyutiy · 合并时间 2026-04-03 08:45

缺陷修复重要性 5.00 洞察度 4.00

修复Qwen3.5 MTP模型在NVFP4量化下因mtp.fc层缺失排除配置导致的加载崩溃问题。

该PR值得精读，尤其是对于处理量化模型和推测解码的工程师。关注点：1. 量化配置与检查点格式不匹配的典型问题及临时修复策略。2. 如何通过条件逻辑在模型初始化阶段动态调整量化设置。3. 与上游依赖（Model-Optimizer）的协同修复流程。

bugfixqwenquantization

#38510 [New Model]: add support for telechat3

原始 PR · 作者 1096125073 · 合并时间 2026-04-03 08:26

功能重要性 6.00 洞察度 5.00

新增TeleChat3模型支持，扩展vLLM模型库。

建议工程师精读telechat3_scaling_rope.py中的TeleChat3RoPEScaledRotaryEmbedding类实现，关注其如何继承和修改YaRN方法，以及get_rope函数中的参数传递逻辑，这对理解vLLM的RoPE扩展机制有参考价值。

modelfeaturedocumentation

#37416 [Kernel] Mamba support different layout for Conv state

原始 PR · 作者 NickLucche · 合并时间 2026-04-03 07:50

性能优化重要性 7.00 洞察度 7.00

支持Mamba Conv状态布局切换，提升性能并启用异构TP支持。

该PR值得精读，特别关注Mamba内核优化中的设计决策（如布局切换机制、与KV缓存布局的类比）和性能权衡（TTFT vs 兼容性）。工程师可从中学习状态管理优化技巧，管理者应留意align模式问题的解决进展。

performancemodel

#38847 [Bugfix]: Fix Gemma4ToolParser.init() missing `tools` parameter

原始 PR · 作者 hospedales · 合并时间 2026-04-03 05:35

缺陷修复重要性 5.00 洞察度 3.00

修复Gemma4工具调用解析器构造函数签名不匹配导致的400错误

该PR变更简单直接，是典型的接口对齐修复。对于大多数工程师，只需了解修复了Gemma4工具调用解析器的构造函数签名不匹配问题。值得关注的是： 1. 这是一个典型的'新代码使用旧接口'问题，提醒在继承现有基类时需要注意接口变更 2. 修复方案采用了与其他工具解析器完全一致的模式，保持了代码一致性 3. 属于v0.19.0版本的重要补丁，需要确保包含在发布中

bugfixtool-callingmodel

#38836 [CI] Fix: pass string cache_dtype in test_register_kv_caches

原始 PR · 作者 ZhanqiuHu · 合并时间 2026-04-03 03:42

缺陷修复重要性 2.00 洞察度 2.00

修复测试用例中cache_dtype参数类型错误，确保与KV缓存量化接口兼容。

该PR变更简单，无需精读。值得关注的是它反映了#38378引入的接口变更（cache_dtype从torch.dtype对象改为字符串），这对理解KV缓存量化功能的API设计有参考价值。

bugfixtestkv-connector

#38792 [CI] Add flashinfer.py to attention test source deps

原始 PR · 作者 stecasta · 合并时间 2026-04-03 03:24

基础设施重要性 3.00 洞察度 2.00

修复CI依赖配置，确保flashinfer.py变更能触发注意力测试。

对于技术管理者：此PR无需深入审查，可快速合并。对于工程师：除非您负责CI维护或修改flashinfer.py，否则无需精读。值得关注的点是CI依赖管理的重要性——一个遗漏的依赖可能导致回归漏检。

cicleanup

#38826 feat(models): implement Google Gemma 4 architecture support (MoE, Multimodal, Reasoning, Tool-Use)

原始 PR · 作者 lucianommartins · 合并时间 2026-04-03 02:13

功能重要性 7.00 洞察度 6.00

实现Google Gemma 4模型家族支持，包括MoE、多模态、推理和工具调用。

建议技术管理者和工程师精读此PR，重点关注以下设计决策：1) 异构头维度（head_dim 与 global_head_dim）下的注意力后端强制选择（Triton），以避免混合后端导致的数值发散；2) Gemma4特定RoPE实现（比例缩放），处理部分旋转维度的零填充；3) 多模态处理器中的错误处理优化和性能批量处理策略，可作为类似模型集成的参考。

featuremodelmulti-modality

第 206 / 253 页 · 共 2021 条

上一页 1 … 204 205 206 207 208 … 253 下一页