Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 05:34 同步状态：空闲下次计划：2026-05-31 06:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-23

#40015 [ROCm] Implement GPU-to-NUMA-node detection

原始 PR · 作者 pschlan-amd · 合并时间 2026-04-23 23:08

功能重要性 5.73 洞察度 4.00

ROCm 平台 GPU-to-NUMA 自动检测

建议阅读代码实现，注意其与现有平台后端的一致性。对于 ROCm 平台用户，此 PR 可用；但建议后续增加单元测试和完善异常处理。

rocmfeature

#37947 [XPU] Upgrade torch 2.11 for xpu

原始 PR · 作者 jikunshang · 合并时间 2026-04-23 23:07

基础设施重要性 3.73 洞察度 3.00

XPU 平台 PyTorch 升级至 2.11，triton-xpu 升级至 3.7.0

建议关注 nightly triton-xpu 的稳定性，并考虑后续在非 nightly 版本发布后切换回稳定版本。可参考 review 建议的 vendoring 策略以提高构建可重现性。PR 本身作为依赖升级，值得 XPU 相关维护者精读。

intel-gpuci/build

#40193 [Bugfix] Make Attention Backend Auto-Selection Batch-Invariance-Aware

原始 PR · 作者 WorldExplored · 合并时间 2026-04-23 22:57

缺陷修复重要性 7.75 洞察度 7.00

让注意力后端自动选择感知batch invariance，修复启用时的手动指定需求

该 PR 是 vllm 工程改进的重要一步，将 batch invariance 的配置从运行时错误迁移到自动选择。建议核心成员阅读讨论中的设计权衡（尤其是 Yewentao 关于“完全支持 vs 有限支持”的观点），未来可能需要对 `supports_batch_invariance` 返回多值枚举以表达更丰富的语义。

bugfixattention

#40681 [Model] Support Hy3 preview

原始 PR · 作者 stevenkuang-tencent · 合并时间 2026-04-23 22:08

功能重要性 9.18 洞察度 6.00

支持腾讯混元Hy3-preview MoE模型

值得精读，尤其是MoE集成、MTP推测解码、自定义解析器设计，以及vLLM模型扩展模式。建议在后续迭代中修复讨论中提出的安全性和正确性问题。

featuremodelmoe

#40627 [Bugfix] Include inductor and functorch configs in compilation cache key

原始 PR · 作者 zou3519 · 合并时间 2026-04-23 21:52

缺陷修复重要性 6.37 洞察度 7.00

修复编译缓存未包含 inductor/functorch 配置变更的问题

**建议仔细审查**。本 PR 修复了编译缓存的核心一致性问题，涉及缓存键计算的核心逻辑。值得关注的设计决策： 1. 将 functorch 配置检查点函数 `_get_vllm_functorch_config` 抽取为独立函数，保持与 `set_functorch_config` 的同步，避免配置漂移。 2. 使用 `save_config_portable()` 而非手动摘取部分配置，确保后续新增配置自动纳入缓存键。 3. 对并发安全性的讨论值得跟踪，若后续出现多引擎初始化场景可能需要重新审视。

compilationbugfix

#40701 [Misc] use model arch converter for bidi models identification

原始 PR · 作者 Isotr0py · 合并时间 2026-04-23 21:42

重构重要性 6.82 洞察度 6.00

将双向注意力检测逻辑统一迁移到模型架构转换器

值得精读。该PR展示了如何将模型特性检测逻辑集中到架构转换器模式中，为后续支持更多不同架构的模型提供了清晰的扩展点。建议关注Gemma4覆写中未处理显式标志的潜在问题。

refactor

#40683 [XPU][CI]Temporary disable 3 cases on Intel GPU in CI

原始 PR · 作者 zxd1997066 · 合并时间 2026-04-23 21:42

基础设施重要性 2.86 洞察度 2.00

临时禁用 Intel GPU CI 中三个失败的 LoRA 测试

该 PR 为典型的临时 CI 修复，技术含量低，不建议精读。但值得注意其模式：通过 `--deselect` + `|| true` 快速冻结不稳定测试，同时保留测试框架。建议维护者设置一个提醒/Issue 跟踪内核升级进度，并在升级后及时回退此配置。

ci/buildintel-gpubugfix

#38112 [CPU] Added faster exp routine for lower precision data types.

原始 PR · 作者 almayne · 合并时间 2026-04-23 21:14

功能重要性 6.42 洞察度 6.00

为ARM CPU BF16/FP16注意力添加快速exp

值得精读，特别是其平台特定优化与通用代码的分离策略，以及编译期分派的实践。设计讨论展现了在ISA无关代码中集成特殊优化的权衡，对后续类似改动有参考价值。

performancecpukernel

第 136 / 253 页 · 共 2019 条

上一页 1 … 134 135 136 137 138 … 253 下一页