Repositories / vllm-project / vllm

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态：已开启最近同步：2026-05-31 04:32 同步状态：空闲下次计划：2026-05-31 05:32

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-25

#37964 [XPU] Support Intel XPU hardware information collection in usage stats

原始 PR · 作者 1643661061leo · 合并时间 2026-03-25 01:29

缺陷修复重要性 4.00 洞察度 3.00

在 usage stats 中添加 Intel XPU 硬件信息收集，避免 gpu_type 和 gpu_count 为 null。

该 PR 值得 XPU 用户或 usage stats 模块维护者精读，以了解硬件检测扩展模式。建议关注 review 中提到的设备数检查缺失问题，在部署到无 XPU 设备的环境时可能引发异常。

bugfixxpu

#37904 [Mypy] Fix mypy for `vllm/model_executor` (except `vllm/model_executor/layers`)

原始 PR · 作者 hmellor · 合并时间 2026-03-25 01:14

重构重要性 4.00 洞察度 4.00

修复vllm/model_executor模块的mypy类型错误，提升代码质量。

对于从事vllm/model_executor模块开发或类型检查工作的工程师，此PR值得精读，可以关注如何通过类型提示、断言和cast提升代码安全性，特别是在处理复杂类型时的设计决策。

refactortest

#37307 [Core] add option to schedule requests based on full ISL

原始 PR · 作者 DanBlanaru · 合并时间 2026-03-25 01:01

功能重要性 7.00 洞察度 6.00

添加调度器选项，基于完整输入序列长度准入请求，防止KV缓存颠簸和性能下降。

该PR值得精读，特别是`can_fit_full_sequence`方法的设计和调度集成逻辑，展示了如何通过准入控制优化资源利用率，以及review中关于配置和日志的决策权衡。

performancefeaturescheduler

#20859 [Feature] limit thinking tokens (hard limit)

原始 PR · 作者 llsj14 · 合并时间 2026-03-25 00:53

功能重要性 9.18 洞察度 7.00

新增思考令牌硬限制功能，通过logit处理器强制终止超预算推理。

建议精读此PR以学习logit处理器设计与状态管理技巧，特别关注`ThinkingTokenBudgetLogitsProcessor`中如何通过`_update_think_state`处理增量令牌和边缘案例。同时，注意配置层如何将字符串转换为令牌ID，为未来自动化集成推理解析器提供参考。

featurestructured-outputperformance

#37999 Update new contributor message

原始 PR · 作者 hmellor · 合并时间 2026-03-25 00:01

基础设施重要性 2.00 洞察度 2.00

更新GitHub新PR机器人消息，以劝阻AI代理提交低价值PR。

此PR变更简单，对于大多数工程师无需精读；但值得关注其如何通过基础设施手段管理贡献质量，可作为类似场景的参考。

2026-03-24

#37956 [Deprecate] Deprecate pooling multi task support.

原始 PR · 作者 noooop · 合并时间 2026-03-24 22:07

重构重要性 6.00 洞察度 6.00

弃用 pooling 多任务支持，要求用户通过配置显式指定任务。

建议技术管理者和工程师精读此 PR，因为它展示了 API 弃用和重构的设计决策，特别是 `get_pooling_task` 方法中的任务优先级逻辑和错误处理模式。关注 `vllm/config/model.py` 和 `vllm/entrypoints/llm.py` 的变更，以理解如何平衡向后兼容性和简化架构。

documentationfrontendrefactor

#37987 [Bugfix] Add replacement of _compute_slot_mapping_kernel on CPU

原始 PR · 作者 bigPYJ1151 · 合并时间 2026-03-24 22:00

缺陷修复重要性 5.00 洞察度 5.00

为 CPU 后端添加 slot mapping kernel 替换实现，移除 CI softfail 以提升测试可靠性。

该 PR 值得精读，特别是对于关注 CPU 后端优化或 kernel 实现的工程师。值得关注的设计决策包括：使用 OpenMP 进行并行化的策略、通过 monkey-patching 实现回退的灵活性，以及 CI 配置从实验性到正式化的转变。建议检查代码质量问题是否已在后续提交中修复。

bugfixcpuci

#37911 [Bugfix] Suppress spurious CPU KV cache warning in `launch render`

原始 PR · 作者 sagearc · 合并时间 2026-03-24 20:36

缺陷修复重要性 4.00 洞察度 5.00

修复 vllm launch render 在 CPU 机器上打印误导性 KV 缓存警告的问题。

该 PR 改动较小，值得快速 review 以了解 bugfix。建议关注全局状态修改的设计权衡，并考虑在 future 重构中采用更封装的方法。

bugfixfrontendcpu

第 242 / 253 页 · 共 2019 条

上一页 1 … 240 241 242 243 244 … 253 下一页