Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 03:31 同步状态：空闲下次计划：2026-05-31 04:31

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-24

#36799 [Sparse24] [Deprecation] Remove Sparse24 CT integration and kernels

原始 PR · 作者 kylesayrs · 合并时间 2026-03-24 04:03

重构重要性 6.00 洞察度 4.00

移除Sparse24模型的压缩张量集成和内核代码，以减少维护负担和二进制大小。

该PR值得快速浏览以了解弃用策略，但无需深究技术细节。关注点在于`CompressedTensors24`类的错误抛出方式和review中的直接删除决策，这对类似功能清理有参考价值。

refactortestquantization

#32951 [Async][Spec Decoding] Zero-bubble async scheduling + spec decoding

原始 PR · 作者 MatthewBonanni · 合并时间 2026-03-24 03:37

性能优化重要性 8.00 洞察度 7.00

实现了零气泡异步调度和推测解码优化，提升推理性能约3%。

该PR值得精读，尤其是vllm/v1/worker/gpu_model_runner.py中的异步状态管理逻辑和update_num_computed_tokens_for_batch_change设计。关注点包括：乐观假设与延迟校正的权衡、GPU缓冲区优化以减少同步、以及review中讨论的代码简化路径，这些决策对高性能推理系统设计有重要参考价值。

speculative-decodingperformancerefactor

#37812 [MRV2] Consider spec decoding in warmup

原始 PR · 作者 WoosukKwon · 合并时间 2026-03-24 01:45

性能优化重要性 5.00 洞察度 4.00

在MRV2的GPU worker warmup中集成speculative decoding，确保正确初始化和性能。

对于负责GPU worker、speculative decoding或MRV2架构的工程师，值得简要阅读此PR以了解warmup过程的调整。设计决策简洁，主要学习点是避免代码重复和维护一致性，无需深入分析复杂逻辑。

performancerefactorspeculative-decoding

#37882 [CI] split Entrypoints Integration (API Server 1) into 3 jobs

原始 PR · 作者 jikunshang · 合并时间 2026-03-24 01:37

基础设施重要性 4.00 洞察度 3.00

拆分Entrypoints集成测试CI作业为三个并行作业，以缩短总运行时间。

对于CI维护者和测试工程师值得精读，了解如何优化测试作业拆分和并行化策略；一般开发者可快速浏览以确认无测试覆盖问题，但变更较机械，技术洞察有限。

citestrefactor

2026-03-23

#37657 [CI][PD] Add Hybrid SSM integration tests to CI

原始 PR · 作者 NickLucche · 合并时间 2026-03-23 23:58

测试重要性 4.00 洞察度 3.00

添加Hybrid SSM NixlConnector集成测试到CI，扩展测试覆盖。

这是一个简单的CI测试添加，不值得深入精读。工程师可关注模型从Nemotron改为Granite的决策，以了解测试资源优化和配置调整的思路。

testkv-connectorci

#37609 Use lazy graph module during split_module to defer recompile()

原始 PR · 作者 angelayi · 合并时间 2026-03-23 23:21

性能优化重要性 6.00 洞察度 6.00

在 split_graph 中使用 lazy graph module 延迟 recompile()，节省约 226ms 编译时间。

建议技术管理者和工程师精读此 PR，重点关注使用私有 API 进行性能优化的设计权衡，以及未来兼容性考虑。代码改动虽简单，但讨论揭示了在依赖第三方库内部实现时的常见挑战，值得作为案例学习。

performancetorch.compile

#37884 [Bugfix] Fix RoBERTa position_ids accumulation on CUDA graph padding

原始 PR · 作者 he-yufeng · 合并时间 2026-03-23 23:15

缺陷修复重要性 6.00 洞察度 5.00

修复RoBERTa模型在CUDA图模式下位置ID累积导致的崩溃问题。

建议工程团队精读此PR，了解CUDA图下缓冲区管理的陷阱，特别是避免原地操作持久状态。对于涉及模型嵌入层或CUDA图优化的代码，此修复提供了良好实践参考。对于维护RoBERTa相关模块的开发者，建议重点关注位置处理逻辑的变更。

bugfixperformancemodel

#37873 [Bugfix] RoBERTa position_id accumulation in CUDA graph padding region

原始 PR · 作者 yanghui1-arch · 合并时间 2026-03-23 22:59

缺陷修复重要性 6.00 洞察度 6.00