Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 19:59 同步状态：空闲下次计划：2026-05-31 20:59

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-13

#35721 [LoRA] Support dual CUDA streams-Linear Layer

原始 PR · 作者 jeejeelee · 合并时间 2026-04-13 10:57

功能重要性 6.00 洞察度 7.00

支持双CUDA流以并行执行LoRA线性层计算，提升推理性能。

建议技术管理者和工程师精读vllm/lora/layers/base_linear.py中的异步实现，关注流管理和PDL启用条件；设计决策值得学习，尤其是双流并行化模式。

loraperformancenvidia

#39656 [XPU] revert torch-xpu to 2.10

原始 PR · 作者 jikunshang · 合并时间 2026-04-13 10:50

基础设施重要性 3.00 洞察度 2.00

将XPU相关依赖从2.11.0降级回2.10.0，以解决oneCCL依赖问题。

此PR为基础设施调整，逻辑简单，无需精读。建议关注：1. 后续是否有PR解决oneCCL依赖并升级回2.11.0。2. 注意torchvision版本不一致可能带来的环境问题。

xpu

#39651 [ROCm][CI] Removed stale tests and extended acceptance test

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-04-13 10:40

基础设施重要性 3.00 洞察度 2.00

清理ROCm CI中过时的speculative decoding测试，并调整acceptance测试标记。

该PR变更简单直接，适合快速浏览以了解CI配置清理。值得关注的是团队对测试冗余的判断和取舍，但无需深入代码逻辑。建议后续关注speculative decoding功能是否在其他测试中得到充分覆盖。

rocmci

#39644 [Bugfix] [Tests] Enforce `out` tensor device in `kernel/moe/test_cutedsl_moe.py`

原始 PR · 作者 zyongye · 合并时间 2026-04-13 08:08

缺陷修复重要性 2.00 洞察度 2.00

修复CUDSL MoE测试中张量设备不匹配导致的IMA问题。

该PR变更简单，无需精读。对于工程师，可关注点：在编写测试时确保张量设备一致性，避免跨设备操作导致的IMA问题。对于技术管理者，这是一个典型的测试稳定性修复，无需额外关注。

bugfixtestkernel

#38360 [compile] Bug fix for _decompose_size_nodes

原始 PR · 作者 anijain2305 · 合并时间 2026-04-13 04:20

缺陷修复重要性 5.00 洞察度 5.00

修复编译后端中 _decompose_size_nodes 对 getitem 用户处理错误导致的参数数量问题。

建议编译模块开发者精读此 PR，了解 size 节点分解的正确处理方式，并注意 symbolic 索引的潜在问题。对于符号形状支持，可能需要进一步优化或添加测试覆盖 symbolic 场景。

bugfixcompilation

2026-04-12

#37879 fix(moe): fix RoutedExpertsCapturer assertion failure with DP>1 and MK path

原始 PR · 作者 Young-Leo · 合并时间 2026-04-12 22:28

缺陷修复重要性 6.00 洞察度 5.00

修复 MoE 专家路由捕获器在数据并行和 MK 量化路径下的断言错误，避免 CUDA 图捕获崩溃。

建议工程师精读 `routed_experts_capturer.py` 的 `capture` 方法变更，理解两种 DP dispatch 路径的差异及其在量化上下文中的处理方式。关注错误处理从警告到断言的演变，这体现了对可靠性的重视。

bugfixmodelquantization

#39354 [KVConnector][NIXL] Organize NIXL connector into its own directory

原始 PR · 作者 NickLucche · 合并时间 2026-04-12 21:10

重构重要性 6.00 洞察度 6.00

将NIXL KV缓存传输连接器重构为模块化目录结构，提升代码组织性和可维护性。

建议技术管理者将此PR视为代码组织最佳实践案例，关注模块化设计对长期维护的益处。工程师应精读scheduler.py和worker.py，理解线程安全设计和模块职责分离；同时注意review中提到的未解决风险，在后续开发中优先修复。

kv-connectorrefactor

#38709 [Core][Metrics] Remove `vllm:prompt_tokens_recomputed` metric

原始 PR · 作者 markmc · 合并时间 2026-04-12 17:22

重构重要性 4.00 洞察度 5.00

移除误导性的prompt_tokens_recomputed指标，简化缓存命中统计逻辑。

该PR值得精读，尤其是对于关注vLLM指标系统和缓存命中统计的工程师。关键设计决策包括：1) 识别并移除误导性指标，避免技术债务；2) 简化统计公式，使local_cache_hit和external_kv_transfer的计算更直观；3) 与PR #37460的关联展示了指标系统的演进方向。

kv-connectorrefactormetrics

第 176 / 253 页 · 共 2020 条

上一页 1 … 174 175 176 177 178 … 253 下一页