Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-14 22:19 同步状态：空闲下次计划：2026-06-14 23:19

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-01

#35153 [MoE Refactor] Make SharedExperts class for use with DefaultMoERunner

原始 PR · 作者 bnellnm · 合并时间 2026-04-01 21:44

重构重要性 9.36 洞察度 7.00

引入 SharedExperts 类集中管理 MoE 共享专家执行，重构核心运行器。

建议深入阅读 SharedExperts 类的实现，理解其如何决策执行顺序和处理流同步；关注 DefaultMoERunner 中 forward_dispatch 的设计，这是整合新类的关键；同时，注意 review 中提及的待优化点，如所有权动态化，以把握未来演进方向。

refactormoe

#38359 [Bugfix] Revert "Zero-init MLA attention output buffers to prevent NaN from CUDA graph padding"

原始 PR · 作者 elvircrn · 合并时间 2026-04-01 21:11

缺陷修复重要性 4.00 洞察度 5.00

回滚MLA注意力输出缓冲区的零初始化，移除CUDA图填充导致的性能开销和FlashInfer兼容性hack。

建议关注此PR作为代码清理和问题根源澄清的案例。值得精读以理解：1) 为何零初始化方案被判定为多余；2) 如何正确处理CUDA图填充与NaN问题；3) FlashInfer兼容性hack的移除方式。

bugfixrefactorperformance

#37831 [Bugfix] Fix Qwen3CoderToolParser anyOf/oneOf type resolution for nullable params

原始 PR · 作者 AAISSJ · 合并时间 2026-04-01 20:22

缺陷修复重要性 6.00 洞察度 6.00

修复Qwen3CoderToolParser中anyOf/oneOf参数类型解析错误，确保可为空参数正确转换。

建议工程师阅读此PR以了解JSON Schema类型解析的设计决策，特别是对于Nullable参数和$ref的优雅处理。代码重构展示了如何将复杂条件逻辑模块化为辅助方法，值得在类似类型处理场景中借鉴。

bugfixtool-callingqwen

#38179 [KVTransfer] Fix TpKVTopology.is_kv_replicated equality case

原始 PR · 作者 JianDan0212 · 合并时间 2026-04-01 18:41

缺陷修复重要性 4.00 洞察度 3.00

修复KV缓存复制判断中的边界条件，确保TP规模等于KV头数时不误判为复制。

建议KV连接器和分布式相关开发者精读此PR，虽然变更只有一行，但揭示了KV缓存复制判断的重要边界条件。特别关注Copilot关于添加单元测试的建议，这是防止未来回归的关键。

kv-connectorbugfix

#38636 (security) Enforce frame limit in VideoMediaIO

原始 PR · 作者 jperezdealgaba · 合并时间 2026-04-01 18:23

缺陷修复重要性 6.00 洞察度 5.00

在 VideoMediaIO 中强制实施帧数限制，防止 base64 JPEG 视频导致的内存耗尽漏洞。

建议精读此 PR，重点关注 load_base64 方法中如何处理 num_frames 边界条件的设计决策，以及安全漏洞修复的代码实现，可作为多模态输入验证的参考案例。

securitymulti-modalitybugfix

#38708 Add `verified` label to trigger `pre-commit`

原始 PR · 作者 hmellor · 合并时间 2026-04-01 17:31

基础设施重要性 3.00 洞察度 2.00

添加`verified`标签以仅触发pre-commit检查，不触发测试。

该PR属于小型基础设施改动，对于CI维护者和贡献者了解新标签机制可能值得关注，但对于一般工程师，无需精读，除非涉及GitHub Actions配置优化。

#37948 [Perf] triton bilinear_pos_embed kernel for ViT

原始 PR · 作者 zhandaz · 合并时间 2026-04-01 16:52

性能优化重要性 8.00 洞察度 6.00

为ViT添加融合Triton内核，显著提升位置嵌入插值性能，影响所有Qwen3 VL模型。

该PR值得精读，特别是融合内核设计和回退机制，适合关注性能优化的工程师学习；建议重点关注`_bilinear_pos_embed_kernel`中的索引数学和权重融合逻辑，以及测试覆盖策略。

performancemulti-modalityqwen

#34246 [Core] Simplify multimodal masking

原始 PR · 作者 lgeiger · 合并时间 2026-04-01 16:18

重构重要性 6.00 洞察度 6.00

利用 PyTorch 2.9.0 特性简化多模态掩码处理，避免 CPU/GPU 同步。

建议工程团队精读此 PR，重点关注如何利用 PyTorch 新特性简化代码的设计决策，特别是 _merge_multimodal_embeddings 函数的变更。对于多模态模型开发者，需了解 CPU tensor 处理的变化，并检查相关模型定义是否已适配。此 PR 展示了性能优化与代码简化的平衡，值得学习。

refactorperformancemulti-modality

第 272 / 314 页 · 共 2508 条

上一页 1 … 270 271 272 273 274 … 314 下一页