Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-06-04 08:41 同步状态：空闲下次计划：2026-06-04 09:41

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-28

#43540 [Quantization] Fix Humming RoutedExperts import

原始 PR · 作者 fallintoplace · 合并时间 2026-05-28 01:51

缺陷修复重要性 4.78 洞察度 2.00

修复 Humming MoE 导入路径错误

建议合并。改动经过充分 review，修复了明确的 bug，风险低。虽然测试被移除，但改动的简单性使得测试回报较低。可读性方面，导入路径更清晰，与项目其他部分一致。

bugfixquantizationmoe

#43361 [8/n] Migrate merge_attn_states, mamba, sampler to torch stable ABI (continued)

原始 PR · 作者 cleonard530 · 合并时间 2026-05-28 00:35

重构重要性 6.98 洞察度 5.00

迁移 attention/mamba/sampler 内核到 torch stable ABI

建议精读 `csrc/libtorch_stable/torch_bindings.cpp` 和 `csrc/libtorch_stable/ops.h`，了解稳定 ABI 的注册和声明模式。对于需要迁移自定义内核的开发者，本 PR 提供了清晰的参考模板。同时关注常量正确性讨论，这在跨 ABI 时尤其重要。

refactorkernelcompilation

#41751 [ROCm] mori: add InterNodeV1LL inter-node kernel selection via VLLM_MORI_INTERNODE_KERNEL

原始 PR · 作者 jatseng-ai · 合并时间 2026-05-28 00:33

功能重要性 6.94 洞察度 5.00

拆分 MoRI 后端为 mori_high_throughput / mori_low_latency

值得阅读，展示了如何在不引入新配置项的情况下扩展后端选择。设计上遵循现有模式，评审中对环境变量的取舍值得借鉴。

rocmperformancefeature

#43791 Fix early CUDA init

原始 PR · 作者 hmellor · 合并时间 2026-05-28 00:30

缺陷修复重要性 6.30 洞察度 6.00

修复因 eager import 导致的 CUDA 驱动提前初始化

此 PR 是修复 CI 的关键修复，建议合并。其设计决策（避免在 __init__.py 中导出可能引入副作用的大模块）值得其他模块借鉴。

bugfixnvidiadeepseek

#43546 [Docs] Fix the duplicate doc icon issue

原始 PR · 作者 chunyang-wen · 合并时间 2026-05-28 00:09

缺陷修复重要性 4.18 洞察度 2.00

修复文档生成时重复 GitHub 图标问题

可以快速合入。无需精读，但可作为学习 MkDocs 预处理顺序影响的好例子。

documentationbugfix

2026-05-27

#39155 [BugFix] HFValidationError with cloud storage URIs when HF_HUB_OFFLINE=1

原始 PR · 作者 sts07142 · 合并时间 2026-05-27 23:53

缺陷修复重要性 6.90 洞察度 4.00

修复 HF_HUB_OFFLINE=1 时云存储 URI 导致崩溃的 bug

此 PR 值得精读，特别是如果有云部署或离线环境需求。它展示了如何通过早期判断避免 HuggingFace Hub 的输入验证，以及如何修复易被忽视的 URI 传递错误。设计上，它选择在 `EngineArgs` 层面做防御性检查而非修改 `get_model_path`，这是一个合理且侵入性小的方案。

bugfixinfratest

#43745 [misc] Bump cutedsl version to 4.5.2

原始 PR · 作者 zyongye · 合并时间 2026-05-27 23:25

基础设施重要性 1.70 洞察度 1.00

升级 cutedsl 依赖到 4.5.2

可快速合并。建议在后续 CI 中关注 FA4 相关测试是否通过。

ci/buildnvidiainfra

#43401 [Bugfix] Map reasoning_effort to enable_thinking in chat template kwargs

原始 PR · 作者 ashwing · 合并时间 2026-05-27 20:39

缺陷修复重要性 7.54 洞察度 5.00

修复 Gemma4 Responses API 思考未启用

值得合并。设计简洁，尊重用户显式设置，且通过 `resolve_chat_template_kwargs` 天然过滤不兼容模型的 kwarg，安全无侵入。文档同步更新清晰。

bugfixfrontenddocumentation

第 33 / 269 页 · 共 2148 条

上一页 1 … 31 32 33 34 35 … 269 下一页