Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 12:47 同步状态：空闲下次计划：2026-05-31 13:47

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-18

#40175 Remove outdated tests test_mixtral_moe and test_duplicated_ignored_sequence_group

原始 PR · 作者 mgoin · 合并时间 2026-04-18 07:49

测试重要性 5.63 洞察度 3.00

删除两个过时测试函数以清理测试套件。

该PR值得简单审查以确认测试确实过时；建议关注是否有替代测试或相关功能仍需验证，避免回归风险。

cleanuptestmoe

#37463 [Kernel] Add MXFP4 W4A4 CUTLASS MoE kernel for SM100

原始 PR · 作者 mgoin · 合并时间 2026-04-18 07:42

功能重要性 9.18 洞察度 6.00

为 SM100 架构新增 MXFP4 W4A4 CUTLASS MoE 内核，实现 W4A4 推理。

该 PR 值得精读，特别是对于关注量化 MoE 和内核优化的工程师。关键设计决策包括 MXFP4 与 NVFP4 的量化区别、SM100 专用优化以及后端自动选择机制，有助于理解 vLLM 量化栈的演进。

kernelquantizationmoe

#40171 [Kernel] [Helion] Force disable HOP path due to performance regression

原始 PR · 作者 gmagogsfm · 合并时间 2026-04-18 05:36

缺陷修复重要性 4.97 洞察度 3.00

强制禁用 Helion HOP 路径以规避性能回归问题。

该 PR 值得快速浏览，重点关注其作为临时性能规避措施的设计决策。虽然变更简单，但揭示了团队在遇到性能回归时的应急处理模式：通过硬编码开关快速禁用问题路径，而非立即深入修复。建议关注后续相关 PR 以了解性能回归的根本修复。

kernelbugfixperformance

#39953 [ROCm] Fix TurboQuant on ROCm: backend routing, flash-attn compat, int64 overflow

原始 PR · 作者 aditi-amd · 合并时间 2026-04-18 04:08

缺陷修复重要性 5.47 洞察度 5.00

修复 ROCm 平台上 TurboQuant 的后端路由、flash-attn 兼容性和 int64 溢出问题。

该 PR 值得精读，特别是如何通过最小化代码变更解决平台特定 API 不兼容性，以及后端路由的设计决策。关注 `turboquant_attn.py` 中的注意力逻辑调整和 `rocm.py` 中的路由实现，这些展示了跨平台适配的实用技巧。

rocmbugfixquantization

#38396 [AMD][CI] Update DeepEP branch

原始 PR · 作者 rjrock · 合并时间 2026-04-18 03:30

基础设施重要性 3.59 洞察度 3.00

更新ROCm平台DeepEP版本并调整CI测试配置，修复gfx942/gfx950编译问题。

此PR主要涉及基础设施更新，对于关注ROCm平台或CI/CD流程的工程师值得浏览，特别是Dockerfile中构建参数的用法和CI测试迁移的决策。对于核心模型推理或性能优化工程师，优先级较低。

rocmci/build

#39978 [ROCm][CI] Build fastsafetensors from source so it links against libamdhip64

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-04-18 03:30

缺陷修复重要性 4.46 洞察度 4.00

修复 ROCm 上 fastsafetensors 的 CUDA-only PyPI 问题

该 PR 是紧急修复型变更，值得关注其后续演进。建议跟踪 Issue 评论中提到的上游 PR（foundation-model-stack/fastsafetensors#67 和 #68），待上游发布支持 ROCm 的通用 wheel 后，应恢复使用 PyPI 版本，以消除 git 依赖。

rocmci/buildbugfix

#39957 skip fp8e4b15 on xpu

原始 PR · 作者 xinyu-intel · 合并时间 2026-04-18 00:55

缺陷修复重要性 5.03 洞察度 4.00

在XPU上跳过fp8e4b15格式，扩展TurboQuant测试到XPU平台。

建议阅读此PR以了解如何扩展平台抽象支持，特别是设备检测和格式选择的设计决策，适用于处理多平台兼容性场景。

bugfixquantizationxpu

#40089 [Misc][UX] Map mimo reasoning and tooling parsers

原始 PR · 作者 ywang96 · 合并时间 2026-04-18 00:49

功能重要性 4.88 洞察度 3.00

为 MiMo-V2-Flash 模型添加推理和工具解析器映射，复用 Qwen3 实现。

该 PR 变更简单，适合快速浏览以了解模型支持扩展模式。值得关注的点是复用现有解析器的设计决策，这减少了代码重复，但需确保模型兼容性。

tool-callingfeature

第 156 / 253 页 · 共 2019 条

上一页 1 … 154 155 156 157 158 … 253 下一页