Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-01 12:31 同步状态：空闲下次计划：2026-06-01 13:31

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-31

#28631 [Frontend][3/n] Improve pooling entrypoints | scoring.

原始 PR · 作者 noooop · 合并时间 2026-03-31 15:52

重构重要性 6.00 洞察度 7.00

重构评分API为IOProcessor模式，统一跨编码器、双编码器和延迟交互架构的在线和离线处理逻辑。

该PR是理解vLLM池化任务架构演进（特别是向统一IOProcessor模式迁移）的绝佳案例，值得核心开发者精读。重点关注`ScoringIOProcessor`的设计如何封装不同评分算法的差异，以及`OfflineInputsContext`/`OfflineOutputsContext`如何统一在线和离线处理的接口。同时，应留意review中提到的关于异常处理策略和抽象层次选择的讨论，这对设计类似的模块有借鉴意义。

refactorfrontendmulti-modality

#35697 [CPU] Support int8 compute mode in CPU AWQ

原始 PR · 作者 yintong-lu · 合并时间 2026-03-31 15:27

功能重要性 6.00 洞察度 6.00

在CPU后端为AWQ量化模型引入int8计算模式，性能提升显著。

该PR值得精读，特别是内核实现部分和设计权衡。关注点包括：如何适配SGLang内核以实现融合反量化、环境变量控制策略的性能影响、以及AMX硬件依赖的兼容性处理。

cpuperformancequantization

#38611 [ci] Remove benchmarks job

原始 PR · 作者 khluu · 合并时间 2026-03-31 14:46

基础设施重要性 2.00 洞察度 1.00

移除Buildkite CI中的benchmarks job以简化UI并减少无用信号。

此PR变更简单，属于CI基础设施优化，无需深度技术分析。对于负责CI维护的工程师，可快速浏览以了解配置变更；对于其他开发者，可忽略此PR，除非关注CI流程精简趋势。

cicleanup

#37989 [OOT] Add OOT support for linear kernel.

原始 PR · 作者 menogrey · 合并时间 2026-03-31 14:33

功能重要性 6.00 洞察度 4.00

为线性内核添加OOT支持接口，增强硬件插件兼容性。

值得简要阅读以了解OOT支持机制；关注register_linear_kernel的设计，虽然未采纳重构建议，但为未来内核类型扩展提供了基础，适合内核开发者和平台集成工程师参考。

featuretest

#38554 [kv_offload+HMA] Fix num_blocks with different per-layer page sizes and improve assert message

原始 PR · 作者 kfirtoledo · 合并时间 2026-03-31 14:00

缺陷修复重要性 5.00 洞察度 4.00

修复 UniformTypeKVCacheSpecs 下 num_blocks 读取错误，并改进块大小对齐断言消息。

推荐技术管理者和从事 KV 缓存模块开发的工程师阅读此 PR，重点理解 num_blocks 派生方式的变更及其对混合模型支持的意义，以学习配置值和错误处理的最佳实践。

bugfixkv-connectormodel

#38189 [Tool Parser][2/3] Use self.tools instead of request.tools in tool parsers

原始 PR · 作者 sfeng33 · 合并时间 2026-03-31 13:41

重构重要性 5.00 洞察度 5.00

重构工具解析器，将工具依赖从 request.tools 移至 self.tools，统一工具管理逻辑。

建议技术管理者和工程师精读此 PR，重点关注基类过滤逻辑的设计决策和跨解析器的一致性变更，以了解工具解析器重构的模式和潜在风险点。

refactortool-callingcleanup

#38576 vLLM Benchmark Suite perf regression after PR#32723

原始 PR · 作者 louie-tsai · 合并时间 2026-03-31 13:23

缺陷修复重要性 4.00 洞察度 3.00

修复性能基准测试回归，通过添加temperature=0确保输出确定性。

该PR变更简单，不值得深入精读。但可关注基准测试配置对性能评估的重要性，以及如何在CI中保持测试确定性。

performancecitest

#38508 [ROCm][CI] Fix Whisper translation test attention backend selection

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-31 13:21

缺陷修复重要性 4.00 洞察度 4.00

修复 ROCm 平台上 Whisper 翻译测试的注意力后端选择，确保使用兼容后端避免失败。

该 PR 值得快速浏览以了解 ROCm 平台上注意力后端选择的策略，特别是 _get_rocm_attention_config 函数的设计，可作为测试中平台特定配置的参考。对于核心系统工程师，由于其仅涉及测试代码，无需深入分析。

bugfixrocmtest

第 218 / 253 页 · 共 2022 条

上一页 1 … 216 217 218 219 220 … 253 下一页