Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 03:31 同步状态：空闲下次计划：2026-05-31 04:31

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-25

#40715 [BE][Bugfix] Respect TORCH_COMPILE_DISABLE env var at the vLLM config level for torch 2.12

原始 PR · 作者 Lucaskabela · 合并时间 2026-04-25 07:25

缺陷修复重要性 5.50 洞察度 5.00

修复 TORCH_COMPILE_DISABLE 环境变量未被 vLLM 配置层尊重的问题

该 PR 是典型的“上游依赖行为变更引发下游适配”场景，值得关注。虽然变更量小，但体现了对上游 PyTorch 变化的快速响应和正确性判断。`TORCH_COMPILE_DISABLE` 环境变量检查的实现方式（严格匹配 `== "1"`）是很好的实践，值得在其他类似环境变量处理中推广。建议合并。

bugfixcompilationcpu

#40844 [Bugfix] add seq_lens_cpu_upper_bound to CommonAttentionMetadata in mla_runner.py

原始 PR · 作者 ignaciosica · 合并时间 2026-04-25 07:13

缺陷修复重要性 3.94 洞察度 3.00

新增 seq_lens_cpu_upper_bound 参数修复 MLA 注意力测试

建议开发者精读以了解 CommonAttentionMetadata 的构造演进方向。同时可借此机会清理已弃用的 `_seq_lens_cpu` 参数，避免未来断裂。

bugfixtest

#40810 [EPLB] Fix replica selection bias in fused_moe router

原始 PR · 作者 arpera · 合并时间 2026-04-25 06:06

缺陷修复重要性 6.60 洞察度 6.00

修复 EPLB 路由副本选择偏差

值得精读。该 PR 展示了一个典型的负载均衡边界问题及其巧妙解决方案—— Knuth 乘法哈希。对于关注 MoE 推理优化的工程师，代码注释清晰，测试设计有针对性，是学习 Triton kernel 开发和负载均衡策略的好范例。

bugfixmoeperformance

#40629 [Bugfix][CI] Fix wrong residual shape in TestFusedAddRMSNorm.example_inputs that causes flaky test

原始 PR · 作者 zhangj1an · 合并时间 2026-04-25 04:40

缺陷修复重要性 4.55 洞察度 6.00

修复 RMSNorm 测试中残差张量形状不匹配问题

值得精读，这是一个典型的内存越界导致 flaky 测试的案例。PR 作者提供了详细的复现脚本和根因分析，对理解 CUDA 内存分配和测试编写有借鉴意义。建议阅读 PR body 中的复现脚本以加深理解。

bugfixtesttorch.compile

#40763 [Bug] Fix GLM-5.1 running error on ROCm platform

原始 PR · 作者 qli88 · 合并时间 2026-04-25 03:54

缺陷修复重要性 7.24 洞察度 5.00

修复 GLM-5.1 在 ROCm 上的 MLA 头部填充问题

该 PR 值得仔细阅读，特别是 AiterMLAHelper 类的设计——将特定后端的特殊需求集中管理，避免散落在各个 forward 方法中。建议未来在 AITER 上游修复后及时移除 workaround（参见代码中的 TODO）。

bugfixrocmmodel

#34770 [Build] Add Python 3.14 to supported version list.

原始 PR · 作者 nascheme · 合并时间 2026-04-25 01:24

基础设施重要性 4.45 洞察度 3.00

支持 Python 3.14 构建

建议合并，因为这是支持新 Python 版本的必要步骤，且已通过基础测试验证。但需在 Python 3.14 稳定发布后完善 CI 覆盖和分布式支持。

ci/buildnvidiarocm

#40744 [Frontend] Delegate to vLLM Omni When `--omni` Passed

原始 PR · 作者 alex-jw-brooks · 合并时间 2026-04-25 00:30

重构重要性 7.01 洞察度 5.00

vLLM CLI 支持 --omni 参数委托给 vLLM Omni

值得精读，尤其是关注 CLI 入口点设计和避免包冲突的技术决策；也可作为多包协作时“显式委托替代 hijack”的范例。建议后续补充测试，并跟踪插件机制的演进。

frontendrefactorcleanup

2026-04-24

#37430 [Docs] Add docs for context extension using the yarn method

原始 PR · 作者 labAxiaoming · 合并时间 2026-04-24 23:26

文档重要性 3.86 洞察度 3.00

为 context extension 添加 YaRN 方法文档

该 PR 为纯文档更新，内容简洁实用，值得作为 vLLM 特性文档的参考样例。

documentationfeature

第 130 / 253 页 · 共 2019 条

上一页 1 … 128 129 130 131 132 … 253 下一页