Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 01:11 同步状态：空闲下次计划：2026-06-01 02:11

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-09

#39296 [XPU][UT] update UTs in CI

原始 PR · 作者 zhenwei-intel · 合并时间 2026-04-09 09:38

基础设施重要性 3.00 洞察度 2.00

更新XPU CI测试脚本，忽略hf3fs相关单元测试以修复测试失败。

该PR变更简单直接，适合快速浏览以了解CI测试调整。对于技术管理者，建议关注后续PR #37947的进展，确保依赖升级彻底解决测试问题；对于工程师，可注意KV连接器模块的测试覆盖变化，在相关开发中加强本地测试。

cixpu

#33892 [W8A8 Block Linear Refactor][2/N] Remove W8A8Fp8BlockLinearOp and adopt Fp8 block linear kernel selections.

原始 PR · 作者 maralbahari · 合并时间 2026-04-09 08:50

重构重要性 7.00 洞察度 7.00

移除遗留W8A8BlockFp8LinearOp类，引入内核抽象统一FP8块量化选择。

该PR值得精读，特别是内核抽象设计和动态分发策略。关注点：1) MMLinearKernel接口如何统一不同量化类型（FP8、Int8）的参数处理；2) init_fp8_linear_kernel中的平台特定内核选择逻辑，尤其是_POSSIBLE_FP8_BLOCK_KERNELS的优先级排序；3) 量化方法（如Fp8LinearMethod）中内核初始化的时机调整，从__init__移到create_weights的影响。建议工程师重点审查测试文件以确保回归覆盖，并关注动态分发部分以备后续优化。

refactorquantizationperformance

#39315 [Bugfix] FlashInfer MXINT4 MoE crashes, missing do_finalize

原始 PR · 作者 benchislett · 合并时间 2026-04-09 08:36

缺陷修复重要性 5.00 洞察度 4.00

修复FlashInfer MXINT4 MoE因缺少do_finalize参数导致的崩溃问题。

该PR值得精读，尤其是输出处理逻辑的健壮性改进（从泛化检查到具体类型检查）和单元测试设计，可作为处理第三方库接口变更的范例。关注flashinfer_mxint4_moe.py中do_finalize参数的添加和输出提取逻辑。

bugfixquantizationperformance

#39286 [torch.compile] Allow usage of Opaque Objects in PyTorch 2.11

原始 PR · 作者 zou3519 · 合并时间 2026-04-09 07:21

功能重要性 6.00 洞察度 6.00

允许在 PyTorch 2.11 中使用 Opaque Objects，修复相关测试失败。

建议：对于使用 PyTorch 2.11 和 torch.compile 的开发者，此 PR 值得精读，以了解如何处理 Inductor 的 opaque objects 支持。关注 `_apply_constrain_to_fx_strides_patch` 的设计决策，以及版本检查的调整，这些反映了与上游 PyTorch 集成的技术权衡。

torch.compilerefactor

#39181 [Bugfix]Fix EP precision for Qwen3.5, Qwen3-Next

原始 PR · 作者 USTCKAY · 合并时间 2026-04-09 05:47

缺陷修复重要性 5.00 洞察度 3.00

修复Qwen3.5/Qwen3-Next在序列并行下共享专家权重分片导致的精度问题。

该PR值得快速浏览，重点关注SharedExpert中disable_tp参数的传递逻辑，以及is_sequence_parallel如何与现有并行配置集成。对于从事模型并行或MoE开发的工程师，可学习如何正确处理序列并行下的专家权重分片。建议检查其他MoE模型是否有类似问题。

bugfixmodelqwen

#39347 [CI Bug] Fix pre-commit issue in main

原始 PR · 作者 yewentao256 · 合并时间 2026-04-09 05:10

缺陷修复重要性 2.00 洞察度 1.00

修复spec_decode测试中因行超长导致的pre-commit检查失败。

这是一个琐碎的格式修复，无需精读。工程师可快速浏览以了解pre-commit合规性要求，但无设计决策值得关注。

bugfixtestspeculative-decoding

#39102 [BugFix] --max-model-len=-1 causes over-limit requests to hang and starve the entire service

原始 PR · 作者 triangleXIV · 合并时间 2026-04-09 05:03

缺陷修复重要性 6.00 洞察度 6.00

修复--max-model-len=-1时超限请求挂起导致服务不可用的同步缺陷。

该PR值得精读，特别关注使用msgpack结构化消息进行进程间通信的设计，以及如何处理分布式环境下的配置同步（如min操作）。对于涉及多进程同步、配置管理或ZMQ协议的场景有借鉴意义。建议工程师学习_apply_ready_response的实现和测试用例的编写方式。

bugfixfrontendtest

#39206 `tests/v1/e2e/spec_decode`: assert async scheduling is used

原始 PR · 作者 puririshi98 · 合并时间 2026-04-09 04:30

测试重要性 4.00 洞察度 4.00

在推测解码E2E测试中添加异步调度断言，确保配置正确启用。

建议测试工程师和推测解码开发者阅读此PR，以了解如何验证异步调度配置，并关注draft_model的进展。代码变更简单，但设计决策（如自定义异常和xfail处理）值得注意。

speculative-decodingtestscheduler

第 189 / 253 页 · 共 2020 条

上一页 1 … 187 188 189 190 191 … 253 下一页