Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 06:35 同步状态：空闲下次计划：2026-05-31 07:35

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-23

#37990 [MoE refactor] refactor GPTQMarlinMoEMethod with MK

原始 PR · 作者 jikunshang · 合并时间 2026-04-23 13:21

重构重要性 8.85 洞察度 7.00

重构GPTQMarlinMoEMethod以使用modular kernel框架，引入WNA16 MoE oracle后端选择。

该PR值得精读以了解oracle设计模式和modular kernel集成。关注`int_wna16.py`中的后端选择逻辑、层无关性实现，以及review中讨论的LoRA支持和回退路径问题，这些是未来类似重构的关键决策点。

refactormoequantization

#40664 [BugFix]fix Qwen3 MoE call gate twice

原始 PR · 作者 jikunshang · 合并时间 2026-04-23 13:04

缺陷修复重要性 6.12 洞察度 4.00

修复 Qwen3 MoE 模型前向传播中门控层被重复计算的问题。

该 PR 值得精读，因为它展示了 vLLM 中 MoE 模型如何通过 `is_internal_router` 属性来统一处理内部/外部路由器调用，这是一个重要的设计模式。关注 `Qwen3MoeSparseMoeBlock.forward` 方法中的条件分支，理解其如何避免重复计算。

bugfixqwenmoe

#40092 [TurboQuant] enable FA3/FA4 for prefill paths

原始 PR · 作者 huangzhilin-hzl · 合并时间 2026-04-23 12:35

功能重要性 6.90 洞察度 6.00

为 TurboQuant 注意力后端启用 FA3/FA4 支持，修复混合后端断言失败。

建议精读 `turboquant_attn.py` 中的 `_flash_attn_varlen` 方法，了解 FA 版本检测和封装设计。同时关注 review 中提到的未决问题，考虑在后续 PR 中补充 `requires_alibi` 和 SM90 覆盖逻辑。

quantizationfeature

#39789 [XPU] disable fusion pattern support on XPU platform

原始 PR · 作者 chaojun-zhang · 合并时间 2026-04-23 10:07

缺陷修复重要性 5.80 洞察度 4.00

在 XPU 平台禁用尚未支持的融合优化模式，防止运行时错误。

该 PR 值得 XPU 平台开发者或对平台特定优化感兴趣的工程师精读，重点关注其如何通过配置检查来优雅地处理平台限制，以及代码重构（从重复 `if` 到循环）带来的可维护性提升。

intel-gpubugfix

#40641 [BE] Fix compile time message to be consistent (use monitoring)

原始 PR · 作者 Lucaskabela · 合并时间 2026-04-23 08:12

重构重要性 5.83 洞察度 3.00

统一编译耗时监控逻辑，消除时间报告不一致

值得合并，修复了编译时间报告的不一致问题。建议后续添加针对 encoder 编译计时的单元测试，防止回归。

refactorperformancecleanup

#39565 [Fix][MoRI] Align MoRI-IO message format with P2pNcclConnector and vllm-router

原始 PR · 作者 simondanielsson · 合并时间 2026-04-23 07:06

缺陷修复重要性 7.89 洞察度 6.00

对齐 MoRI-IO 连接器消息格式，使其与 vllm-router 兼容。

该 PR 值得精读，特别是地址嵌入和解析的设计决策，展示了如何通过 request_id 传递元数据来简化分布式通信。关注 `parse_moriio_zmq_address` 和 `get_peer_zmq_from_request_id` 的实现，以及错误处理策略。

kv-connectorrocmbugfix

#40552 [Bugfix] Fix RMS norm + quant fusion on DeepGEMM UE8M0 path for B200

原始 PR · 作者 Lucaskabela · 合并时间 2026-04-23 06:04

缺陷修复重要性 4.40 洞察度 5.00

跳过 B200 上 DeepGEMM UE8M0 路径的 RMS+quant 融合测试

建议合并，因为这是临时性的测试跳过，且文档清晰地指出了根本原因和修复方向。审阅者应关注后续是否有人跟进实现真正的融合修复（可追踪 TODO 和 draft PR #40650）。

bugfixtestcompilation

#38016 [gRPC] Add standard gRPC health checking (grpc.health.v1) for Kubernetes native probes

原始 PR · 作者 V2arK · 合并时间 2026-04-23 05:31

功能重要性 7.25 洞察度 6.00

为vLLM gRPC服务器添加标准gRPC健康检查服务，支持Kubernetes原生探针。

建议技术管理者和工程师精读`vllm/entrypoints/grpc_server.py`中的健康服务集成部分，关注关机处理和异常捕获设计；同时查看测试文件以理解健康检查的各种场景。对于使用gRPC部署的用户，此PR提供了重要的运维增强功能。

documentationfrontendci/build

第 138 / 253 页 · 共 2019 条

上一页 1 … 136 137 138 139 140 … 253 下一页