Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-13 23:51 同步状态：空闲下次计划：2026-06-14 00:51

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-20

#43130 [Spec Decode] Support non-MTP speculation for NemotronH

原始 PR · 作者 benchislett · 合并时间 2026-05-20 21:15

功能重要性 6.90 洞察度 4.00

为 NemotronH 添加非 MTP 推测解码支持

建议精读 `nemotron_h.py` 中 `forward` 方法的改动，理解 `_maybe_add_hidden_state` 的收集机制。同时关注 `EagleModelMixin` 的定义，以评估后续推测解码设计的可扩展性。

speculative-decodingmodelfeature

#33648 [Feature] Support manually enabling the cumem allocator

原始 PR · 作者 kebe7jun · 合并时间 2026-05-20 20:58

功能重要性 7.51 洞察度 5.00

新增 --enable-cumem-allocator 参数，支持手动启用 CU Mem 分配器

值得精读。本 PR 展示了如何将一个绑定在“功能 A”下的底层配置（cuMem allocator）优雅地解耦为独立参数，同时保持向后兼容。对于理解 vLLM V1 引擎的内存分配路径和与 Nixl 等 KV 连接器的交互有重要参考价值。建议重点关注 `ModelConfig.__post_init__` 中自动启用逻辑以及 `_maybe_get_memory_pool_context` 的重构。

featurev1kv-connector

#40326 [Doc] Sync CLI guide with actual help modes and launch subcommand

原始 PR · 作者 wangrui6 · 合并时间 2026-05-20 17:32

文档重要性 3.94 洞察度 2.00

同步 CLI 文档并新增 launch 子命令页面

值得阅读，尤其是对于希望理解 vLLM CLI 文档自动生成流程（`generate_argparse.py`）和嵌套导航结构的贡献者。核心设计决策是复用已有的 argparse mock 和 mkdocs hook 模式来统一所有 CLI 子命令的文档生成，避免了重复的手动维护。

documentationinfracleanup

#42330 [Frontend] Forward X-data-parallel-rank header on /inference/v1/generate

原始 PR · 作者 hallerite · 合并时间 2026-05-20 16:58

缺陷修复重要性 4.72 洞察度 3.00

修复 disagg 端点缺失 data_parallel_rank 转发

值得合入，修复明确且安全。PR 本身简单，但可作为理解 disagg 服务与数据并行路由交互的参考。

bugfixfrontendv1

#42499 [XPU][CI] Add 2 server model test files in Intel GPU CI

原始 PR · 作者 zxd1997066 · 合并时间 2026-05-20 16:54

基础设施重要性 4.14 洞察度 2.00

Intel GPU CI 新增音频和基准测试

该 PR 是常规的 CI 扩展，值得关注其作为 Intel GPU 持续测试覆盖的增量改进。review 中的依赖建议值得在其他 CI 配置中借鉴。

intel-gpuci/buildtest

#40717 [GDN] Enable FI Blackwell GDN prefill kernel

原始 PR · 作者 arpera · 合并时间 2026-05-20 16:46

功能重要性 7.84 洞察度 6.00

启用 FlashInfer Blackwell GDN 预填充内核

该 PR 设计清晰，将后端选择逻辑提取为独立函数，便于测试和替换。Blackwell 内核路径的 check 逻辑完整，推荐阅读 `_should_use_flashinfer_gdn_prefill` 的实现。关注后续 FlashInfer 版本更新及依赖安装文档的完善。

featureperformancenvidia

#43192 Enable mermaid diagrams in the docs

原始 PR · 作者 hmellor · 合并时间 2026-05-20 16:10

基础设施重要性 3.40 洞察度 3.00

启用文档中的 Mermaid 图表支持

该 PR 改动简单明确，适合快速合并。对于不熟悉 MkDocs 配置的开发者，此 PR 提供了一个可参考的 Mermaid 集成范例。

documentationinfra

#42663 [6/n] Migrate activation kernels, gptq, gguf, non cutlass w8a8 to libtorch stable ABI (continued)

原始 PR · 作者 cleonard530 · 合并时间 2026-05-20 15:18

重构重要性 7.39 洞察度 6.00

将激活/量化/GGML内核迁移到 libtorch stable ABI

**值得精读**。该 PR 是 vLLM 向 libtorch ABI 稳定迁移的重要里程碑，展示了如何将现有 CUDA 内核逐步迁移到 stable API。重点关注文件移动策略、不依赖 CUTLASS 的错误检查宏设计、以及算子注册的调整方式。对于参与 PyTorch 生态或关注构建系统可靠性的开发者，有很高参考价值。

refactorinfrarocm

第 101 / 312 页 · 共 2496 条

上一页 1 … 99 100 101 102 103 … 312 下一页