Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

rocm 相关 PR

2026-04-18

#39967 [ZenCPU] AMD Zen CPU Backend with supported dtypes via zentorch weekly

作者 Chinmay-Kulkarni-AMD · 合并时间 2026-04-18 14:22

基础设施 重要性 5.68 洞察度 4.00

修正 AMD Zen CPU 后端支持的浮点类型,并将依赖切换至 zentorch 周构建版本。

rocm cpu v1 infra

此 PR 值得精读,特别是对于关注多平台支持或依赖管理的工程师。关键设计决策包括:通过覆盖 `supported_dtypes` 来匹配硬件能力,以及选择固定 zentorch 周构建版本而非版本范围。建议关注 review 中关于依赖版本管理的讨论,以权衡稳定性和可维护性。

缺陷修复 重要性 5.47 洞察度 5.00

修复 ROCm 平台上 TurboQuant 的后端路由、flash-attn 兼容性和 int64 溢出问题。

rocm bugfix quantization v1

该 PR 值得精读,特别是如何通过最小化代码变更解决平台特定 API 不兼容性,以及后端路由的设计决策。关注 `turboquant_attn.py` 中的注意力逻辑调整和 `rocm.py` 中的路由实现,这些展示了跨平台适配的实用技巧。

#38396 [AMD][CI] Update DeepEP branch

作者 rjrock · 合并时间 2026-04-18 03:30

基础设施 重要性 3.59 洞察度 3.00

更新ROCm平台DeepEP版本并调整CI测试配置,修复gfx942/gfx950编译问题。

rocm ci/build v1 infra

此PR主要涉及基础设施更新,对于关注ROCm平台或CI/CD流程的工程师值得浏览,特别是Dockerfile中构建参数的用法和CI测试迁移的决策。对于核心模型推理或性能优化工程师,优先级较低。

#39978 [ROCm][CI] Build fastsafetensors from source so it links against libamdhip64

作者 AndreasKaratzas · 合并时间 2026-04-18 03:30

基础设施 重要性 3.97 洞察度 3.00

为ROCm平台从源码构建fastsafetensors,修复HIP运行时库链接问题。

rocm ci/build v1 infra

该PR主要涉及基础设施调整,对于关注ROCm平台兼容性或CI/CD流程的工程师值得一读。关键设计决策在于权衡使用git源码构建与PyPI预编译包的利弊,以及移除git依赖检查的合理性。

2026-04-16

#39944 [Kernel][Helion] Fix inductor fusion of Helion HOP

作者 gmagogsfm · 合并时间 2026-04-16 19:41

缺陷修复 重要性 6.69 洞察度 6.00

修复Helion kernel在TorchInductor融合编译时的错误,通过委托给Helion的Dynamo handler。

rocm bugfix kernel

对于从事Helion集成或Torch编译优化的工程师,此PR值得精读,重点关注_register_vllm_helion_dynamo_variable函数中的委托逻辑设计决策。

#33773 [ROCm][FEAT] Integrate aiter gemm w8a8 ptpc

作者 vllmellm · 合并时间 2026-04-16 09:55

功能 重要性 9.00 洞察度 6.00

在AMD ROCm平台集成aiter GEMM内核,优化FP8推理性能。

rocm feature performance quantization v1

建议工程师精读此PR,重点关注内核选择逻辑(如`can_implement`方法如何实现条件分发)以及权重处理流程。这对于理解ROCm平台性能优化和量化内核集成有重要参考价值。

2026-04-15

#39119 [ROCm] Align AiterFlashAttentionImpl attn_type check with backend

作者 Bortlesboat · 合并时间 2026-04-15 01:36

缺陷修复 重要性 4.00 洞察度 5.00

修复ROCm平台AiterFlashAttentionImpl中attn_type检查与后端不一致的问题,防止跨注意力错误计算。

rocm v1 bugfix attention

该PR值得快速浏览,重点关注attn_type检查的逻辑对齐和错误信息的改进。对于关注ROCm平台注意力后端实现的开发者,这是一个重要的防御性修复,展示了后端契约与实现类保持一致的重要性。

#39754 [Bugfix][ROCm]: Allow `gpt_oss_mxfp4` quantization method on rocm

作者 Rohan138 · 合并时间 2026-04-15 01:10

缺陷修复 重要性 3.00 洞察度 4.00

修复ROCm平台不支持gpt_oss_mxfp4量化方法的问题。

bugfix rocm gpt-oss quantization v1

该PR变更简单直接,无需精读代码。值得关注的是PR作者提出的设计问题:平台级支持列表是否是最佳设计?这反映了vLLM中平台抽象和量化支持机制的潜在改进点。建议相关架构师关注此问题,考虑是否应重构为量化方法自声明支持平台。