Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-28

#43864 [Bugfix] Exclude Ray DP from #42585's deferred port allocation

原始 PR · 作者 vadiklyutiy · 合并时间 2026-05-28 23:55

缺陷修复重要性 7.51 洞察度 6.00

修复 Ray DP 多 API-server 场景因端口分配导致挂起的 bug

值得精读以理解不同后端对地址分配机制的限制。设计清晰：后续若增加新后端，需类似评估其对延迟分配的兼容性。测试设计精巧，避免 GPU 依赖，可重复运行。

bugfixv1frontend

#43803 [Perf] remove seqlen from Mamba SSD chunk kernels

原始 PR · 作者 Majid-Taheri · 合并时间 2026-05-28 23:40

性能优化重要性 4.37 洞察度 6.00

移除 Mamba SSD 内核死参数，TTFT 降低 17%

建议仔细审查以确保所有内核的 `seqlen` 参数均已移除，并考虑在类似内核中检查其他可能引发重编译的整型参数。

performancekernelv1

#43813 [Bug] Fix `tests/distributed/test_elastic_ep.py - assert False`

原始 PR · 作者 yewentao256 · 合并时间 2026-05-28 23:00

缺陷修复重要性 4.94 洞察度 3.00

修复 CpuGpuBuffer 在推理模式下不可变导致测试失败

建议快速合并，属于明确的单点修复。可作为 PyTorch inference mode 下 mutable buffer 使用模式的参考案例。

bugfixv1test

#43429 [rust] fix: aggregate `is_sleeping` and `reset_prefix_cache` across DP engines

原始 PR · 作者 willamhou · 合并时间 2026-05-28 22:56

缺陷修复重要性 7.59 洞察度 6.00

修复 DP 引擎结果仅取首个的 Bug，增加聚合检查

该 PR 值得精读，特别是其系统性地将“只取第一个”的不安全模式改为显式聚合检查，并通过错误类型丰富诊断信息。对于分布式系统中一致性和错误可见性的设计有借鉴意义。建议阅读 `client.rs` 中的 `is_sleeping` 和 `reset_prefix_cache` 实现，以及测试中的 mock 模式。

bugfixv1infra

#43850 [Rust Frontend] Reduce Gemma4 tool parser args scan complexity

原始 PR · 作者 BugenZhao · 合并时间 2026-05-28 22:52

性能优化重要性 8.17 洞察度 6.00

增量扫描 Gemma4 工具参数，性能提升约 600 倍

值得精读。该 PR 演示了如何通过引入轻量状态机避免重复全解析的经典优化技巧，设计决策清晰（保持框架扫描与完整语法分离），且性能数据令人印象深刻。对于需要使用流式工具解析的开发者有较高参考价值。

performanceparsertool-calling

#43872 [Rust Frontend] Add `hy_v3` tool parser

原始 PR · 作者 BugenZhao · 合并时间 2026-05-28 22:42

功能重要性 8.05 洞察度 5.00

添加 hy_v3 工具解析器，支持 HY3 模型工具调用

值得精读。该 PR 展示了如何以最小代价在已有架构下新增工具解析器：复用 ToolSchema 转换和 parse_buffered_event 工具，同时灵活处理非标准类型别名。对后续支持类似 XML 格式模型有参考价值。

featureparsertool-calling

#43841 [CPU] Migrate cpu_awq into awq_marlin

原始 PR · 作者 bigPYJ1151 · 合并时间 2026-05-28 22:36

重构重要性 9.00 洞察度 4.00

CPU AWQ 迁移至 awq_marlin 并支持 W4A8

建议关注 `cpu.py` 中新增的 `_process_gptq_weights_w4a8` 函数，了解 W4A8 权重的重排逻辑。对于维护者，PR 展示了如何通过平台条件扩展重构量化后端。

cpuquantizationrefactor

#40344 [Bugfix][ROCm] Resolve MoRI connector hangs at high concurrency

原始 PR · 作者 simondanielsson · 合并时间 2026-05-28 22:30

缺陷修复重要性 7.73 洞察度 6.00

修复高并发下 MoRI 连接器挂起

建议所有使用 MoRIIO 部署 1P1D 场景的团队尽快合入并验证。推荐精读 `update_connector_output` 和 `_mark_request_done` 的实现，理解如何在不侵入调度器的情况下实现块回收。

bugfixrocmv1

第 27 / 269 页 · 共 2148 条

上一页 1 … 25 26 27 28 29 … 269 下一页