Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 01:25 同步状态：空闲下次计划：2026-05-31 02:25

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-28

#40743 [Test] Fix test_dynamic_shapes_compilation for torch 2.12

原始 PR · 作者 angelayi · 合并时间 2026-04-28 08:51

缺陷修复重要性 5.01 洞察度 3.00

修复动态形状编译测试在 torch 2.12 中的脆弱性

该 PR 适合快速合入，解决 torch 2.12 升级后的测试回归。变更简单，review 已通过。值得关注的是「用更可靠的数值比较替代字符串断言」的测试设计思路，适用于其他脆弱测试场景。

bugfixtestcompilation

#41006 [Model][DSV4] Support base model

原始 PR · 作者 jeejeelee · 合并时间 2026-04-28 08:16

功能重要性 8.22 洞察度 6.00

支持 DeepSeek V4 Base 模型（FP8 专家）

值得精读，尤其是 `DeepseekV4FP8Config.expert_dtype` 的 lazy 解析设计——这是一种解决 config 对象构造与实际配置上下文分离之间的常见模式，代码风格清晰。此外，观察 `_make_deepseek_v4_weights_mapper` 如何根据运行时属性动态选择权重映射也很有参考价值。建议关注后续是否补充单元测试。

featuredeepseekmodel

#41019 [xpu] bump up vllm-xpu-kernel v0.1.7

原始 PR · 作者 jikunshang · 合并时间 2026-04-28 08:04

基础设施重要性 2.18 洞察度 2.00

升级 XPU 内核至 v0.1.7 并移除挂起测试

变更简单、安全，可直接合并。建议关注后续 CI 中 lora 相关测试的状态，并跟进 test_qwenvl.py hang 问题的根因修复。

intel-gpuci/buildcleanup

#40410 [Model Runner V2] Skip attention metadata rebuild before draft prefill

原始 PR · 作者 TheEpicDolphin · 合并时间 2026-04-28 06:38

性能优化重要性 7.99 洞察度 6.00

跳过草稿预填充前的注意力元数据重建

该PR值得精读，尤其是对v1推测解码架构和CUDA图捕获流程感兴趣的开发者。`PrefillEagleCudaGraphManager`与`DecodeEagleCudaGraphManager`的拆分设计可复用。由于缺少测试覆盖和潜在的签名不匹配风险，建议合入前补充至少一个端到端测试用例验证不同推测配置。

performancerefactorspeculative-decoding

#39801 [ROCm][CI] Add missing quantization methods and fix online quant test failures

原始 PR · 作者 AndreasKaratzas · 合并时间 2026-04-28 04:08

功能重要性 7.05 洞察度 4.00

补充ROCm量化注册并修复测试

该PR已合并，值得所有维护ROCm后端的工程师精读。核心学习点包括：（1）平台抽象层如何通过`supported_quantization`列表控制量化方法可见性；（2）测试中通过`is_cuda_alike()`而非`is_cuda()`实现多平台兼容的模式；（3）`get_current_memory_usage`应使用`max_memory_allocated`而非`total-free`以确保准确性。对于关注Quark量化或MXFP4 MoE的开发者，`quark_moe.py`中的仿真条件设计值得参考。

rocmquantizationbugfix

#39141 [Perf] Update TRTLLM supported MoE routing methods

原始 PR · 作者 wzhao18 · 合并时间 2026-04-28 02:16

性能优化重要性 7.18 洞察度 6.00

更新TRTLLM MoE路由枚举，新增SigmoidRenorm和MiniMax2

值得精读，特别是在枚举分类和路由方法检测逻辑上的设计决策，以及如何系统性地更新所有专家内核的支持列表。对 DeepSeek、MiniMax 模型部署和维护有兴趣的工程师应重点关注。

performancequantizationdeepseek

#41032 [Docker] Install numactl CLI in CUDA runtime image

原始 PR · 作者 zhewenl · 合并时间 2026-04-28 01:58

基础设施重要性 2.95 洞察度 2.00

Docker 中安装 numactl 命令行工具

简单的依赖修复 PR，可直接合并。建议后续检查 dev 阶段是否需要同步添加。

ci/buildnvidiadocker

2026-04-27

#41003 [Bugfix] use `served_model_name` for multimodal error message

原始 PR · 作者 msanft · 合并时间 2026-04-27 23:22

缺陷修复重要性 5.01 洞察度 2.00

多模态错误信息改为展示用户可读模型名

该 PR 改动简单清晰，适合快速合入。不建议深入阅读。

multi-modalitybugfixcleanup

第 125 / 253 页 · 共 2018 条

上一页 1 … 123 124 125 126 127 … 253 下一页