Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 01:25 同步状态：空闲下次计划：2026-05-31 02:25

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-29

#40648 [Model Runner v2] Fix block table IMA issue

原始 PR · 作者 yewentao256 · 合并时间 2026-04-29 23:30

缺陷修复重要性 6.71 洞察度 5.00

修复 v2 模型运行器中块表在 CuMem 唤醒后的非法内存访问

建议精读该 PR，特别是 init_block_table_layout_tensors 的设计和 post_kv_cache_wake_up 的抽象。关注 CUDA Graph 兼容性风险，并评估在唤醒后是否需要重新捕获图。

bugfixv1cudagraph

#41163 [Perf] Optimize `AllPool.forward` by slicing first, 51% faster in the method level benchmark

原始 PR · 作者 yewentao256 · 合并时间 2026-04-29 23:11

性能优化重要性 6.47 洞察度 5.00

AllPool.forward 提速51%

该 PR 值得精读，其优化思路（减少 GPU-CPU 同步）具有普适性，可作为类似场景的参考。建议关注 `num_scheduled_tokens_cpu` 的新增属性，确保后续扩展时保持兼容。

performancerefactormodel

#40376 [Perf] Enable FlashInfer top-k/top-p sampler by default

原始 PR · 作者 arpera · 合并时间 2026-04-29 23:10

性能优化重要性 7.36 洞察度 6.00

默认启用 FlashInfer top-k/top-p 采样器

建议审核并合并此 PR。它在充分验证（安全测试、分布测试、性能 benchmark）的基础上默认启用了更快的采样器，且提供了完善的回退和降级机制。值得关注的设计决策在于：将默认值迁移到高性能实现，同时通过环境变量允许用户 opt-out，这是良好的兼容性策略。

performancetestci/build

#40973 [Bugfix][CPU] Backport PT cpp codegen indirect_assert scalar-mask fix

原始 PR · 作者 amd-lalithnc · 合并时间 2026-04-29 22:21

缺陷修复重要性 8.27 洞察度 5.00

Backport PT fix 修复 CPU 端 torch.compile 编译错误

值得阅读，特别是了解 vLLM 如何通过 env_override 模式紧急 backport 上游修复。延迟加载 import hook 的实现技巧也值得学习。建议在升级 PyTorch 最低版本到 2.12 前保留此补丁。

bugfixcpucompilation

#41012 hf_name argument for vllm bench throughput CLI

原始 PR · 作者 pmaybank · 合并时间 2026-04-29 20:57

功能重要性 6.07 洞察度 3.00

新增 hf_name 参数以支持本地数据集加载

建议读者了解此 PR 以熟悉 throughput 基准测试的数据集加载机制。对于需要从本地加载数据集的用户，此参数很实用。

featureperformancefrontend

#39445 [Feat] CPU fp8 attn for AMX/AVX-512

原始 PR · 作者 tianmu-li · 合并时间 2026-04-29 20:43

功能重要性 9.18 洞察度 7.00

CPU 后端新增 FP8 KV 缓存量化支持

建议精读该 PR，尤其是 generate_cpu_attn_dispatch.py 的调度设计、TileGemm 模板的扩展方式以及 FP8 去量化与 GEMM 的融合技巧。对关注 CPU 推理性能优化的读者有较高参考价值。

featurecpukernel

#41148 [Bugfix] Fix repeated DSv4 RoPE cache initialization

原始 PR · 作者 jeejeelee · 合并时间 2026-04-29 20:29

缺陷修复重要性 5.62 洞察度 4.00

修复 DeepSeek V4 RoPE 缓存重复初始化

该 PR 是一个简洁的 bugfix，设计思路清晰，值得参考其如何通过参数化控制父类的副作用。对于维护类似继承结构的开发者有启发意义。

bugfixdeepseekrefactor

#40190 [Frontend] Add `defer_loading` and `tool_reference` support for Anthropic and OpenAI APIs

原始 PR · 作者 JaredforReal · 合并时间 2026-04-29 19:35

功能重要性 7.09 洞察度 5.00

为 Anthropic 和 OpenAI API 添加 defer_loading 和 tool_reference 支持

值得精读，尤其是理解前端消息转换架构和 Pydantic 序列化技巧。建议尽快补充单元测试和 E2E 测试（可使用 Qwen3 模型），并验证序列化签名在目标 Pydantic 版本下的兼容性。关注 `_convert_block` 中顶级 `tool_reference` 的丢失问题。

featurefrontendtool-calling

第 118 / 253 页 · 共 2018 条

上一页 1 … 116 117 118 119 120 … 253 下一页