#40015 [ROCm] Implement GPU-to-NUMA-node detection
原始 PR · 作者 pschlan-amd · 合并时间 2026-04-23 23:08
ROCm 平台 GPU-to-NUMA 自动检测
建议阅读代码实现,注意其与现有平台后端的一致性。对于 ROCm 平台用户,此 PR 可用;但建议后续增加单元测试和完善异常处理。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 pschlan-amd · 合并时间 2026-04-23 23:08
ROCm 平台 GPU-to-NUMA 自动检测
建议阅读代码实现,注意其与现有平台后端的一致性。对于 ROCm 平台用户,此 PR 可用;但建议后续增加单元测试和完善异常处理。
原始 PR · 作者 jikunshang · 合并时间 2026-04-23 23:07
XPU 平台 PyTorch 升级至 2.11,triton-xpu 升级至 3.7.0
建议关注 nightly triton-xpu 的稳定性,并考虑后续在非 nightly 版本发布后切换回稳定版本。可参考 review 建议的 vendoring 策略以提高构建可重现性。PR 本身作为依赖升级,值得 XPU 相关维护者精读。
原始 PR · 作者 WorldExplored · 合并时间 2026-04-23 22:57
让注意力后端自动选择感知batch invariance,修复启用时的手动指定需求
该 PR 是 vllm 工程改进的重要一步,将 batch invariance 的配置从运行时错误迁移到自动选择。建议核心成员阅读讨论中的设计权衡(尤其是 Yewentao 关于“完全支持 vs 有限支持”的观点),未来可能需要对 `supports_batch_invariance` 返回多值枚举以表达更丰富的语义。
原始 PR · 作者 stevenkuang-tencent · 合并时间 2026-04-23 22:08
支持腾讯混元Hy3-preview MoE模型
值得精读,尤其是MoE集成、MTP推测解码、自定义解析器设计,以及vLLM模型扩展模式。建议在后续迭代中修复讨论中提出的安全性和正确性问题。
修复编译缓存未包含 inductor/functorch 配置变更的问题
**建议仔细审查**。本 PR 修复了编译缓存的核心一致性问题,涉及缓存键计算的核心逻辑。值得关注的设计决策: 1. 将 functorch 配置检查点函数 `_get_vllm_functorch_config` 抽取为独立函数,保持与 `set_functorch_config` 的同步,避免配置漂移。 2. 使用 `save_config_portable()` 而非手动摘取部分配置,确保后续新增配置自动纳入缓存键。 3. 对并发安全性的讨论值得跟踪,若后续出现多引擎初始化场景可能需要重新审视。
将双向注意力检测逻辑统一迁移到模型架构转换器
值得精读。该PR展示了如何将模型特性检测逻辑集中到架构转换器模式中,为后续支持更多不同架构的模型提供了清晰的扩展点。建议关注Gemma4覆写中未处理显式标志的潜在问题。
原始 PR · 作者 zxd1997066 · 合并时间 2026-04-23 21:42
临时禁用 Intel GPU CI 中三个失败的 LoRA 测试
该 PR 为典型的临时 CI 修复,技术含量低,不建议精读。但值得注意其模式:通过 `--deselect` + `|| true` 快速冻结不稳定测试,同时保留测试框架。建议维护者设置一个提醒/Issue 跟踪内核升级进度,并在升级后及时回退此配置。
为ARM CPU BF16/FP16注意力添加快速exp
值得精读,特别是其平台特定优化与通用代码的分离策略,以及编译期分派的实践。设计讨论展现了在ISA无关代码中集成特殊优化的权衡,对后续类似改动有参考价值。
参与讨论