Prhub

vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

监控状态:已开启 最近同步:2026-06-14 00:53 同步状态:空闲 下次计划:2026-06-14 01:53

PR 列表

更多筛选
2026-03-25
功能 重要性 7.00 洞察度 6.00

添加调度器选项,基于完整输入序列长度准入请求,防止KV缓存颠簸和性能下降。

该PR值得精读,特别是`can_fit_full_sequence`方法的设计和调度集成逻辑,展示了如何通过准入控制优化资源利用率,以及review中关于配置和日志的决策权衡。

#20859 [Feature] limit thinking tokens (hard limit)

原始 PR · 作者 llsj14 · 合并时间 2026-03-25 00:53

功能 重要性 9.18 洞察度 7.00

新增思考令牌硬限制功能,通过logit处理器强制终止超预算推理。

建议精读此PR以学习logit处理器设计与状态管理技巧,特别关注`ThinkingTokenBudgetLogitsProcessor`中如何通过`_update_think_state`处理增量令牌和边缘案例。同时,注意配置层如何将字符串转换为令牌ID,为未来自动化集成推理解析器提供参考。

#37999 Update new contributor message

原始 PR · 作者 hmellor · 合并时间 2026-03-25 00:01

基础设施 重要性 2.00 洞察度 2.00

更新GitHub新PR机器人消息,以劝阻AI代理提交低价值PR。

此PR变更简单,对于大多数工程师无需精读;但值得关注其如何通过基础设施手段管理贡献质量,可作为类似场景的参考。

2026-03-24
重构 重要性 6.00 洞察度 6.00

弃用 pooling 多任务支持,要求用户通过配置显式指定任务。

建议技术管理者和工程师精读此 PR,因为它展示了 API 弃用和重构的设计决策,特别是 `get_pooling_task` 方法中的任务优先级逻辑和错误处理模式。关注 `vllm/config/model.py` 和 `vllm/entrypoints/llm.py` 的变更,以理解如何平衡向后兼容性和简化架构。

缺陷修复 重要性 5.00 洞察度 5.00

为 CPU 后端添加 slot mapping kernel 替换实现,移除 CI softfail 以提升测试可靠性。

该 PR 值得精读,特别是对于关注 CPU 后端优化或 kernel 实现的工程师。值得关注的设计决策包括:使用 OpenMP 进行并行化的策略、通过 monkey-patching 实现回退的灵活性,以及 CI 配置从实验性到正式化的转变。建议检查代码质量问题是否已在后续提交中修复。

缺陷修复 重要性 4.00 洞察度 5.00

修复 vllm launch render 在 CPU 机器上打印误导性 KV 缓存警告的问题。

该 PR 改动较小,值得快速 review 以了解 bugfix。建议关注全局状态修改的设计权衡,并考虑在 future 重构中采用更封装的方法。

#36271 [EPLB] Remove main waits in case of slow EPLB

原始 PR · 作者 ilmarkov · 合并时间 2026-03-24 19:50

性能优化 重要性 5.00 洞察度 5.00

移除主线程与EPLB异步线程的同步等待,优化异步调度性能。

建议工程师精读此PR以学习异步同步优化设计,特别关注CUDA事件与流同步的权衡。性能关键路径的团队应验证在特定负载下的效果。

#37991 [Docs] Fix build

原始 PR · 作者 hmellor · 合并时间 2026-03-24 18:20

文档 重要性 2.00 洞察度 1.00

修复文档构建问题,移除对 psutil inventory 的引用。

变更简单直接,不值得精读,但可作为处理外部依赖问题的参考案例。

参与讨论