Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 09:24 同步状态：空闲下次计划：2026-06-01 10:24

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-30

#38317 [ROCm][CI] Enable hybrid chunked prefill test

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-30 10:30

测试重要性 4.00 洞察度 3.00

在ROCm平台上启用混合分块预填充测试，添加MI325 GPU的CI步骤。

建议技术管理者关注此PR，作为ROCm平台测试扩展的示例，值得工程师精读以了解条件跳过策略和CI配置最佳实践，特别是对于多GPU环境。

rocmcitest

#38442 [QeRL] Fix online quantized reloading

原始 PR · 作者 kylesayrs · 合并时间 2026-03-30 04:56

缺陷修复重要性 6.00 洞察度 6.00

修复在线量化重加载的设备捕获问题，并启用CI测试以避免硬件限制。

建议技术管理者和工程师精读此PR，因为它涉及核心重加载架构的设备管理设计决策，如`LayerReloadingInfo`中`restore_device`的引入和使用、如何在`materialize_layer`中应用设备上下文。这些设计权衡对未来的扩展有启示，同时需注意body中提到的假设限制，以备未来需要更细粒度设备管理时参考。

bugfixquantizationtest

#38139 [Perf] Remove redundant device copies for CPU-only pooling token IDs, 48.9% E2E throughput improvement

原始 PR · 作者 yewentao256 · 合并时间 2026-03-30 02:12

性能优化重要性 6.00 洞察度 6.00

移除CPU-only pooling token IDs的冗余设备拷贝，实现48.9% E2E吞吐量提升。

建议技术管理者关注此PR的性能收益，工程师可精读以学习消除冗余设备拷贝的优化策略，设计决策如移除多余标志值得借鉴，同时需确保相关池化模型测试覆盖。

performancerefactortest

2026-03-29

#38410 [Transformers v5] fix missing pixtral/voxtral multimodal dispatch

原始 PR · 作者 allgather · 合并时间 2026-03-29 17:59

缺陷修复重要性 5.00 洞察度 5.00

修复Transformers v5更新导致的pixtral/voxtral多模态处理器参数缺失错误。

建议工程师精读此PR以了解Transformers版本兼容性下的处理器初始化最佳实践，特别是多模态模型的设计模式如何适应外部库变更。关注review讨论中的重构决策，可借鉴到其他类似模块。

bugfixmulti-modalitymodel

#38450 [ROCm][CI] Fix cross-attention dispatch for encoder-decoder models

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-29 13:08

缺陷修复重要性 6.00 洞察度 7.00

修复ROCm后端在编码器-解码器模型交叉注意力中的调度错误，确保正确后端选择。

该PR值得精读，特别是PR body中的技术解释部分，揭示了交叉注意力后端实现中的陷阱（如缓存语义和序列边界处理），以及设计权衡（如何通过调度而非修复后端来规避错误）。工程师可以学习如何优雅地处理跨后端调度和日志改进。

bugfixrocmtest

#38111 [Spec Decode, BugFix] Propagate norm_before_fc from Eagle3 speculator

原始 PR · 作者 shubhra · 合并时间 2026-03-29 08:42

缺陷修复重要性 4.00 洞察度 3.00

修复Eagle3 speculator中norm_before_fc字段传播bug，恢复正确接受率。

对于熟悉speculative decoding或模型配置的工程师，此PR值得快速浏览以了解配置传播机制；对于其他用户，变更简单直接，无需深入分析设计决策。

bugfixspeculative-decodingmodel

#35367 [Feature] Add Qwen3-ForcedAligner support via token classification pooling

原始 PR · 作者 haosdent · 合并时间 2026-03-29 08:27

功能重要性 6.00 洞察度 6.00

新增Qwen3-ForcedAligner模型支持，通过token分类池化实现音频文本强制对齐。

该PR值得精读，特别是模型继承设计和池化任务的使用方式。建议关注gemini-code-assist[bot]指出的内存效率问题，以及如何通过配置指定模型架构，这些设计决策对类似模型集成有参考价值。

featuremulti-modalityqwen

#38362 [BugFix][Frontend] apply task instruction as system prompt in cohere v2/embed

原始 PR · 作者 walterbm · 合并时间 2026-03-29 02:30

缺陷修复重要性 6.00 洞察度 5.00

修复Cohere v2/embed API任务指令处理bug，确保聊天模板下用作系统提示，提升嵌入生成一致性。

建议工程师精读此PR，特别关注io_processor.py中的设计决策（如系统提示应用逻辑和回退机制），以及测试策略的改进（余弦相似性替代精确匹配），这对理解嵌入处理器的演变有价值。

bugfixfrontendtest

第 224 / 253 页 · 共 2021 条

上一页 1 … 222 223 224 225 226 … 253 下一页