Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-28
缺陷修复 重要性 7.51 洞察度 6.00

修复 Ray DP 多 API-server 场景因端口分配导致挂起的 bug

值得精读以理解不同后端对地址分配机制的限制。设计清晰:后续若增加新后端,需类似评估其对延迟分配的兼容性。测试设计精巧,避免 GPU 依赖,可重复运行。

性能优化 重要性 4.37 洞察度 6.00

移除 Mamba SSD 内核死参数,TTFT 降低 17%

建议仔细审查以确保所有内核的 `seqlen` 参数均已移除,并考虑在类似内核中检查其他可能引发重编译的整型参数。

缺陷修复 重要性 7.59 洞察度 6.00

修复 DP 引擎结果仅取首个的 Bug,增加聚合检查

该 PR 值得精读,特别是其系统性地将“只取第一个”的不安全模式改为显式聚合检查,并通过错误类型丰富诊断信息。对于分布式系统中一致性和错误可见性的设计有借鉴意义。建议阅读 `client.rs` 中的 `is_sleeping` 和 `reset_prefix_cache` 实现,以及测试中的 mock 模式。

性能优化 重要性 8.17 洞察度 6.00

增量扫描 Gemma4 工具参数,性能提升约 600 倍

值得精读。该 PR 演示了如何通过引入轻量状态机避免重复全解析的经典优化技巧,设计决策清晰(保持框架扫描与完整语法分离),且性能数据令人印象深刻。对于需要使用流式工具解析的开发者有较高参考价值。

#43872 [Rust Frontend] Add `hy_v3` tool parser

原始 PR · 作者 BugenZhao · 合并时间 2026-05-28 22:42

功能 重要性 8.05 洞察度 5.00

添加 hy_v3 工具解析器,支持 HY3 模型工具调用

值得精读。该 PR 展示了如何以最小代价在已有架构下新增工具解析器:复用 ToolSchema 转换和 parse_buffered_event 工具,同时灵活处理非标准类型别名。对后续支持类似 XML 格式模型有参考价值。

#43841 [CPU] Migrate cpu_awq into awq_marlin

原始 PR · 作者 bigPYJ1151 · 合并时间 2026-05-28 22:36

重构 重要性 9.00 洞察度 4.00

CPU AWQ 迁移至 awq_marlin 并支持 W4A8

建议关注 `cpu.py` 中新增的 `_process_gptq_weights_w4a8` 函数,了解 W4A8 权重的重排逻辑。对于维护者,PR 展示了如何通过平台条件扩展重构量化后端。

缺陷修复 重要性 7.73 洞察度 6.00

修复高并发下 MoRI 连接器挂起

建议所有使用 MoRIIO 部署 1P1D 场景的团队尽快合入并验证。推荐精读 `update_connector_output` 和 `_mark_request_done` 的实现,理解如何在不侵入调度器的情况下实现块回收。

参与讨论