Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 09:39 同步状态：空闲下次计划：2026-05-31 10:39

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-21

#40402 [Misc][UX] Suppress confusing `num_gpu_blocks` log lines

原始 PR · 作者 MatthewBonanni · 合并时间 2026-04-21 06:32

缺陷修复重要性 6.40 洞察度 3.00

为CUDA图内存分析场景抑制KV缓存块数覆盖的误导性日志输出。

该PR变更直接、风险低，适合快速审阅。值得关注的设计决策是：通过新增可选参数而非全局标志来控制日志输出，保持了函数的灵活性和向后兼容性。

bugfixcleanup

#40386 [ROCm] Hotfix: guard MLA dual RMS norm fusion against older AITer versions

原始 PR · 作者 rbrugaro-amd · 合并时间 2026-04-21 05:20

缺陷修复重要性 6.12 洞察度 4.00

为ROCm平台的MLA双RMSNorm融合添加AITer版本兼容性检查，避免旧版本运行时崩溃。

该PR虽然改动量小，但揭示了vLLM在集成第三方内核库时的版本管理挑战，值得关注其优雅降级的设计模式。建议精读`vllm/_aiter_ops.py`中的版本探测实现，学习如何通过缓存和清晰错误消息处理外部依赖的不确定性。同时，可结合PR #39242理解完整的MLA双RMSNorm融合优化上下文。

rocmbugfixcompilation

#37341 [EPLB] Consolidate is_unchanged/is_received_locally into TransferMetadata

原始 PR · 作者 SageMoore · 合并时间 2026-04-21 05:12

重构重要性 6.88 洞察度 5.00

将EPLB传输中的is_unchanged和is_received_locally数组整合到TransferMetadata类，简化函数签名。

建议精读以理解EPLB模块的数据结构设计如何通过`TransferMetadata`类简化接口，关注其如何将分散的元数据整合为单一对象，提升代码可读性和可维护性。

refactorcleanup

#39843 [LMCache MP Connector] Add num_lmcache_extra_cached_token in KVTransferParams

原始 PR · 作者 aeon-x · 合并时间 2026-04-21 04:42

功能重要性 5.81 洞察度 4.00

为LMCache MP连接器添加额外缓存令牌计数功能，支持请求输出中返回额外缓存令牌数。

该PR值得精读，重点关注： 1. 条件计算中`max(0, ...)`的设计决策，确保了数据的非负性。 2. 使用`getattr`安全访问`kv_transfer_params`的属性，避免了直接属性访问可能引发的异常。 3. 可结合历史PR（如#39242、#39616）理解LMCache和KV连接器的演进脉络。

kv-connectorfeature

#38371 Enable building MoRI with AMD AINIC stack

原始 PR · 作者 ichbinblau · 合并时间 2026-04-21 02:18

基础设施重要性 4.36 洞察度 5.00

ROCm Docker构建新增MoRI NIC后端支持

• 对于使用AMD NIC的ROCm用户，此PR提供了清晰的构建方式，值得采用。 • 对于vLLM基础镜像维护者，值得关注这种多阶段构建分离模式，在延长底层镜像生命周期和增加应用层灵活性之间做了良好平衡。 • 建议后续添加对其他NIC后端（如Broadcom BNXT）的支持时采用类似模式。

rocmci/buildfeature

#39328 [Core] Cache InductorPass.hash_source with functools.cache

原始 PR · 作者 frgossen · 合并时间 2026-04-21 02:06

性能优化重要性 6.55 洞察度 6.00

通过缓存源码哈希优化编译性能，减少重复的 inspect.getsource() 调用。

该 PR 值得精读，尤其是对于关注编译性能优化的工程师。重点关注 `_hash_source_cached` 的缓存设计决策，以及作者基于性能剖析拒绝更细粒度缓存的权衡思考。这展示了在热点路径上平衡缓存开销与收益的实用策略。

compilationperformance

#40349 [Bugfix][CI] Fix `tests/distributed/test_torchrun_example_moe.py`

原始 PR · 作者 NickLucche · 合并时间 2026-04-21 02:05

缺陷修复重要性 3.46 洞察度 2.00

修复分布式MoE测试中缺失的LLM配置参数，避免测试失败。

该PR变更简单直接，无需深入精读。对于分布式测试开发者，可关注`max_model_len`和`max_num_seqs`参数在测试中的默认值选择，以及它们如何影响KV缓存配置的一致性验证。

bugfixtest

#33728 [WideEP] Remove naive all2all. Use allgather_reducescatter instead

原始 PR · 作者 tlrmchlsmth · 合并时间 2026-04-21 01:53

重构重要性 7.72 洞察度 5.00

移除基于广播的naive all2all实现，统一使用allgather_reducescatter后端。

该PR值得精读，展示了如何清理冗余代码和统一后端实现。重点关注设计决策：移除低效实现，使用标准替代，以及跨硬件平台（CPU、CUDA、XPU）的一致性调整。

refactorcpunvidia

第 148 / 253 页 · 共 2019 条

上一页 1 … 146 147 148 149 150 … 253 下一页