Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

cpu 相关 PR

2026-04-18

#39967 [ZenCPU] AMD Zen CPU Backend with supported dtypes via zentorch weekly

作者 Chinmay-Kulkarni-AMD · 合并时间 2026-04-18 14:22

基础设施 重要性 5.68 洞察度 4.00

修正 AMD Zen CPU 后端支持的浮点类型,并将依赖切换至 zentorch 周构建版本。

rocm cpu v1 infra

此 PR 值得精读,特别是对于关注多平台支持或依赖管理的工程师。关键设计决策包括:通过覆盖 `supported_dtypes` 来匹配硬件能力,以及选择固定 zentorch 周构建版本而非版本范围。建议关注 review 中关于依赖版本管理的讨论,以权衡稳定性和可维护性。

2026-04-17

#39781 [CPU] Refactor CPU affinity and memory management

作者 bigPYJ1151 · 合并时间 2026-04-17 21:01

重构 重要性 9.18 洞察度 7.00

重构 CPU 亲和性与内存管理,修复性能回归并支持自动 KV 缓存大小分析。

cpu refactor performance v1

建议技术管理者和工程师精读 `OMPProcessManager` 类的设计,理解其如何适配不同 OpenMP 库和架构;同时关注 `csrc/cpu/utils.cpp` 中的 NUMA 代码风险,并在部署前进行多架构测试。

2026-04-16

#39966 [CI/Build] Improve stability of CPU tests

作者 bigPYJ1151 · 合并时间 2026-04-16 21:50

基础设施 重要性 4.80 洞察度 3.00

优化CPU测试稳定性,调整测试标记、编译配置和CI并行度。

cpu ci test v1

该PR主要涉及测试和CI配置调整,对于关注CPU平台测试稳定性和CI流水线优化的工程师值得快速浏览。重点关注 `vllm/platforms/cpu.py` 中编译配置的变更,理解 `ir_enable_torch_wrap` 设置对CPU推理性能的潜在影响。

基础设施 重要性 6.34 洞察度 5.00

修复s390x构建以支持Torch 2.11,并更新相关文档。

cpu documentation bugfix

对于从事CPU支持或跨平台构建的工程师,建议精读此PR以了解如何处理特定架构的差异。关注`csrc/cpu/utils.hpp`中的L2缓存检测设计,以及Dockerfile中的依赖管理策略。

#37469 [perf][cpu] Accelerate BF16 GELU with LUT impl on Arm CPUs

作者 fadara01 · 合并时间 2026-04-16 13:26

性能优化 重要性 8.69 洞察度 6.00

在Arm CPU上引入BF16 GELU的LUT实现,最高加速8倍,优化量化模型推理性能。

cpu performance v1 core

建议精读此PR以学习CPU特定性能优化技术,重点关注LUT实现的设计细节(如预计算和并行化)、平台条件分支的优雅处理,以及CustomOp集成模式如何平衡灵活性与性能。对于从事低层优化或跨平台开发的工程师,这是一个有价值的案例。

2026-04-15

#38192 [Quantization][Autoround][CPU] Add W4A16 Support

作者 Zhenzhong1 · 合并时间 2026-04-15 18:38

功能 重要性 6.38 洞察度 5.00

为CPU平台添加W4A16量化支持,扩展AutoRound格式模型在vLLM中的推理能力。

quantization cpu feature v1

该PR值得精读,特别是对于关注vLLM量化系统扩展和跨平台支持的开发者。值得关注的设计决策包括:1) 通过复用现有`apply_gptq_quant_layer`来实现CPU W4A16支持,避免了重复实现内核逻辑;2) 在`get_quant_method`中清晰的分层路由逻辑(先平台,后格式),这体现了模块化的设计思路。

2026-04-11
2026-04-10

#38205 [ZenCPU] Make PT Backport Patch Accessible to vLLM

作者 amd-lalithnc · 合并时间 2026-04-10 16:29

重构 重要性 6.00 洞察度 6.00

移动PyTorch 2.10的FxGraphCachePickler.dumps补丁至通用位置,修复torch.compile缓存问题。

refactor v1 cpu performance

建议技术管理者和工程师精读此PR,关注其idempotent补丁实现和版本门控设计,这对于处理跨平台兼容性和依赖管理有借鉴价值。