Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-13 19:39 同步状态：空闲下次计划：2026-06-13 20:39

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-19

#43039 [Model Refactoring] Move DeepSeek V4 layers to `models/deepseek_v4/` [2/N]

原始 PR · 作者 WoosukKwon · 合并时间 2026-05-19 12:00

重构重要性 6.14 洞察度 4.00

移动 DeepSeek V4 图层文件至 models/deepseek_v4/

值得快速合并。本 PR 是必要的组织清理，逻辑零改动且 CI 通过。建议及时合并以避免与后续 PR 产生冲突。对于关注 DeepSeek V4 或模型重构的读者，可结合前序 PR #43004 理解整体迁移脉络。

refactordeepseekmodel

#42766 [Bugfix][MRV2] Fix KVCache tensor explicit `kernel_block_size` dim

原始 PR · 作者 NickLucche · 合并时间 2026-05-19 11:25

缺陷修复重要性 7.19 洞察度 5.00

修复 MRv2 内核块大小维度不一致

值得精读，重点关注 prepare_kernel_block_sizes 和 BlockTables 的扩展逻辑。这是 MRv2 与连接器集成的重要修复。

bugfixv1kernel

#42537 [UX] Add a persistent cache for FlashInfer autotuning

原始 PR · 作者 mmangkad · 合并时间 2026-05-19 11:25

性能优化重要性 7.86 洞察度 5.00

为 FlashInfer autotuning 添加持久缓存

该 PR 设计清晰，适合作为持久化缓存模式的参考实现。建议重点关注 `kernel_warmup.py` 中的 `_resolve_flashinfer_autotune_file` 和 `flashinfer_autotune` 函数，理解其哈希键生成和广播策略。对于有类似缓存需求的开发者，这一模式可直接复用。

performancenvidiainfra

#37844 [XPU] add gptq(int4) support

原始 PR · 作者 jikunshang · 合并时间 2026-05-19 11:17

功能重要性 6.83 洞察度 4.00

XPU 后端新增 GPTQ int4 量化推理支持

建议关注本 PR 的 review 评论中未解决的问题，特别是零点转置的潜在 Bug，评估是否需要提交后续修复 PR。对于目标是 Intel GPU 量化推理的开发者，本 PR 是基础支撑，值得深入阅读以理解动态布局适配的设计思路。

xpuquantizationfeature

#42468 [BugFix][CPU][Spec Decode] Fix Eagle implementation on CPU backend

原始 PR · 作者 ofirzaf · 合并时间 2026-05-19 11:16

缺陷修复重要性 6.73 洞察度 5.00

修复 CPU 后端 Eagle 投机解码启动失败问题

建议精读，尤其是 `_setup_eagle3_aux_hidden_state_outputs` 的抽取过程和 topk-topp 采样器的 CPU 分支设计。对于需要在 CPU 后端部署投机解码的团队，此 PR 是必要基础。值得注意的设计决策是将采样器回退判断放在函数入口，而非调用侧，保持了调用者透明。

bugfixcpuv1

#42926 [Bugfix] Use platform-agnostic device in example_connector load

原始 PR · 作者 revit13 · 合并时间 2026-05-19 11:12

缺陷修复重要性 5.07 洞察度 5.00

修复 ExampleConnector 加载 KV 时硬编码 .cuda()

该 PR 值得精读，因为它展示了一个最小化、高质量修复的典范：明确问题、接受 review 建议移除冗余导入、最终改动极简。对 KV connector 开发者和希望理解设备无关编码的工程师有参考价值。

bugfixkv-connectorcleanup

#43004 [Model Refactoring] Migrate DeepSeek V4 to vllm/models/ [1/N]

原始 PR · 作者 WoosukKwon · 合并时间 2026-05-19 10:50

重构重要性 9.18 洞察度 6.00

DeepSeek V4 模型迁移至硬件隔离目录 vllm/models/

建议重点阅读 `DeepseekV4FP8Config` 的懒解析设计（`expert_dtype` 延迟读取）和注册表的 `_resolve_module_name` 扩展点。此 PR 展示了 vLLM 未来多后端模型架构的方向，值得团队学习并作为新模型迁移的蓝本。

refactordeepseekmodel

#42476 [Frontend] Add --spec-method/--spec-model/--spec-tokens CLI aliases

原始 PR · 作者 mgoin · 合并时间 2026-05-19 08:22

功能重要性 6.16 洞察度 5.00

为投机解码配置添加 CLI 别名和 LLM 参数

建议精读 `create_speculative_config` 中的合并逻辑，尤其是互斥检查的幂等性保障。同时建议补充测试用例覆盖新别名的 CLI 和 API 使用场景。

frontendfeatureresponses-api

第 107 / 312 页 · 共 2496 条

上一页 1 … 105 106 107 108 109 … 312 下一页