Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-04-21 15:06 同步状态：空闲下次计划：2026-04-21 16:06

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

已合并 856 · 已分析 854

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-01

#37940 [NIXL][BUG] Fix Triton heterogeneous TP

原始 PR · 作者 yzong-rh · 合并时间 2026-04-01 23:23

缺陷修复重要性 6.00 洞察度 6.00

修复 Triton 注意力后端在异构 Tensor Parallelism 下忽略 KV 缓存布局的 bug，确保与 FlashInfer 布局一致。

建议工程师精读此 PR，特别是 `triton_attn.py` 和 `nixl_connector.py` 的变更，以理解 KV 缓存布局在异构 TP 中的关键作用。设计决策如统一布局支持和验证逻辑值得借鉴，可用于类似场景。

bugfixv1kv-connector

#38714 Add ibm-granite/granite-vision-3.3-2b to supported models documentation

原始 PR · 作者 jesus-talavera-ibm · 合并时间 2026-04-01 23:22

documentation 重要性 2.00 洞察度 1.00

在支持模型文档中添加 Granite Vision 模型条目。

该 PR 变更简单直接，无需深入技术分析。对于维护文档完整性的团队成员值得快速浏览以确认模型支持信息的准确性。

documentationmulti-modalityfrontend

#38722 [Misc] Fix docstring typo: buildin -> builtin

原始 PR · 作者 crawfordxx · 合并时间 2026-04-01 22:39

其他重要性 1.00 洞察度 1.00

修复harmony_utils.py中has_custom_tools函数文档字符串的拼写错误。

这是一个简单的文档修正，无需深入阅读。对于希望了解MCP工具分类机制的开发者，可以关注has_custom_tools函数的实现逻辑，但本次变更本身不包含值得关注的设计决策。

frontendcleanupdocumentation

#38723 Fix shape comment in extract_hidden_states example

原始 PR · 作者 fynnsu · 合并时间 2026-04-01 22:29

文档重要性 1.00 洞察度 1.00

修复提取隐藏状态示例中的形状注释错误。

该PR无需精读，除非您特别关注示例文档的准确性。变更简单明了，没有值得关注的设计决策。

documentationcleanupfrontend

#35153 [MoE Refactor] Make SharedExperts class for use with DefaultMoERunner

原始 PR · 作者 bnellnm · 合并时间 2026-04-01 21:44

重构重要性 9.36 洞察度 7.00

引入 SharedExperts 类集中管理 MoE 共享专家执行，重构核心运行器。

建议深入阅读 SharedExperts 类的实现，理解其如何决策执行顺序和处理流同步；关注 DefaultMoERunner 中 forward_dispatch 的设计，这是整合新类的关键；同时，注意 review 中提及的待优化点，如所有权动态化，以把握未来演进方向。

refactormoev1

#38359 [Bugfix] Revert "Zero-init MLA attention output buffers to prevent NaN from CUDA graph padding"

原始 PR · 作者 elvircrn · 合并时间 2026-04-01 21:11

缺陷修复重要性 4.00 洞察度 5.00

回滚MLA注意力输出缓冲区的零初始化，移除CUDA图填充导致的性能开销和FlashInfer兼容性hack。

建议关注此PR作为代码清理和问题根源澄清的案例。值得精读以理解：1) 为何零初始化方案被判定为多余；2) 如何正确处理CUDA图填充与NaN问题；3) FlashInfer兼容性hack的移除方式。

bugfixv1refactor

#37831 [Bugfix] Fix Qwen3CoderToolParser anyOf/oneOf type resolution for nullable params

原始 PR · 作者 AAISSJ · 合并时间 2026-04-01 20:22

缺陷修复重要性 6.00 洞察度 6.00

修复Qwen3CoderToolParser中anyOf/oneOf参数类型解析错误，确保可为空参数正确转换。

建议工程师阅读此PR以了解JSON Schema类型解析的设计决策，特别是对于Nullable参数和$ref的优雅处理。代码重构展示了如何将复杂条件逻辑模块化为辅助方法，值得在类似类型处理场景中借鉴。

bugfixtool-callingqwen

#38179 [KVTransfer] Fix TpKVTopology.is_kv_replicated equality case

原始 PR · 作者 JianDan0212 · 合并时间 2026-04-01 18:41

缺陷修复重要性 4.00 洞察度 3.00

修复KV缓存复制判断中的边界条件，确保TP规模等于KV头数时不误判为复制。

建议KV连接器和分布式相关开发者精读此PR，虽然变更只有一行，但揭示了KV缓存复制判断的重要边界条件。特别关注Copilot关于添加单元测试的建议，这是防止未来回归的关键。

kv-connectorbugfixv1

第 65 / 107 页 · 共 856 条

上一页 1 … 63 64 65 66 67 … 107 下一页

支持 Prhub ♥