Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-04 08:41 同步状态:空闲 下次计划:2026-06-04 09:41

PR 列表

更多筛选
2026-05-28
缺陷修复 重要性 4.78 洞察度 2.00

修复 Humming MoE 导入路径错误

建议合并。改动经过充分 review,修复了明确的 bug,风险低。虽然测试被移除,但改动的简单性使得测试回报较低。可读性方面,导入路径更清晰,与项目其他部分一致。

重构 重要性 6.98 洞察度 5.00

迁移 attention/mamba/sampler 内核到 torch stable ABI

建议精读 `csrc/libtorch_stable/torch_bindings.cpp` 和 `csrc/libtorch_stable/ops.h`,了解稳定 ABI 的注册和声明模式。对于需要迁移自定义内核的开发者,本 PR 提供了清晰的参考模板。同时关注常量正确性讨论,这在跨 ABI 时尤其重要。

#43791 Fix early CUDA init

原始 PR · 作者 hmellor · 合并时间 2026-05-28 00:30

缺陷修复 重要性 6.30 洞察度 6.00

修复因 eager import 导致的 CUDA 驱动提前初始化

此 PR 是修复 CI 的关键修复,建议合并。其设计决策(避免在 __init__.py 中导出可能引入副作用的大模块)值得其他模块借鉴。

#43546 [Docs] Fix the duplicate doc icon issue

原始 PR · 作者 chunyang-wen · 合并时间 2026-05-28 00:09

缺陷修复 重要性 4.18 洞察度 2.00

修复文档生成时重复 GitHub 图标问题

可以快速合入。无需精读,但可作为学习 MkDocs 预处理顺序影响的好例子。

2026-05-27
缺陷修复 重要性 6.90 洞察度 4.00

修复 HF_HUB_OFFLINE=1 时云存储 URI 导致崩溃的 bug

此 PR 值得精读,特别是如果有云部署或离线环境需求。它展示了如何通过早期判断避免 HuggingFace Hub 的输入验证,以及如何修复易被忽视的 URI 传递错误。设计上,它选择在 `EngineArgs` 层面做防御性检查而非修改 `get_model_path`,这是一个合理且侵入性小的方案。

#43745 [misc] Bump cutedsl version to 4.5.2

原始 PR · 作者 zyongye · 合并时间 2026-05-27 23:25

基础设施 重要性 1.70 洞察度 1.00

升级 cutedsl 依赖到 4.5.2

可快速合并。建议在后续 CI 中关注 FA4 相关测试是否通过。

参与讨论