Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

pooling 相关 PR

2026-04-16

#39575 Add Jina Embeddings v5 model support (fixes #38633)

作者 Roy214 · 合并时间 2026-04-16 14:37

功能 重要性 8.58 洞察度 5.00

新增Jina Embeddings v5模型支持,基于Qwen3-0.6B-Base并合并LoRA适配器。

feature model v1 pooling

该PR值得精读,特别是`JinaEmbeddingsV5Model`类中LoRA适配器加载和合并的实现,展示了如何在模型加载时处理适配器权重而避免运行时依赖。关注`load_weights`方法的设计决策和权重匹配逻辑。

2026-04-14
重构 重要性 6.00 洞察度 6.00

将 pooling 入口点的阻塞预处理和后处理卸载到线程池以减少延迟回归。

frontend refactor performance pooling v1

建议工程师精读此 PR,重点关注线程池如何集成到 serving 基类中,以及 make_async 的使用方式。设计决策值得学习,尤其是如何平衡同步和异步处理以优化性能,同时注意 review 中提到的 bug 修复点。

缺陷修复 重要性 6.00 洞察度 6.00

修复 pooling 模型权重加载中因迭代器缓冲区重用导致的静默数据损坏。

bugfix pooling v1 model

推荐所有涉及模型加载或 pooling 功能的工程师精读此 PR,理解迭代器急切求值 vs 惰性求值的陷阱,以及如何安全处理缓冲区重用场景。关注适配器模式中的权重加载逻辑。

2026-04-13

#38827 feat: add max_tokens_per_doc in rerank request.

作者 jefp · 合并时间 2026-04-13 16:24

功能 重要性 6.00 洞察度 6.00

为 rerank 和 score 请求添加 max_tokens_per_doc/query 参数,支持文档/查询独立截断以对齐 Cohere/Jina API。

frontend feature pooling v1 refactor

该 PR 值得精读,重点关注 io_processor.py 中的截断策略设计(三种模型路径处理)、protocol.py 的继承重构以消除重复代码,以及测试中参数化 fixture 的优化模式。这些决策展示了在兼容性和性能间的权衡。

重构 重要性 5.00 洞察度 5.00

重命名 affine score calibration 参数为 logit_mean/logit_sigma 以对齐 LayerNorm 约定,确保向后兼容。

v1 refactor feature pooling documentation

此 PR 值得精读,特别是对于涉及池化模型和配置管理的开发者。关注 `PoolerConfig.__post_init__` 中的弃用处理逻辑和池化头中 out-of-place 操作的设计决策,以学习如何安全地进行 API 重命名和向后兼容策略。

2026-04-12

#39592 [Pooling] Disable async scheduling by default for pooling models

作者 njhill · 合并时间 2026-04-12 15:23

缺陷修复 重要性 5.00 洞察度 5.00

为池化模型默认禁用异步调度,避免TTFT性能下降。

v1 pooling scheduler core performance

建议精读此PR以理解vLLM中调度策略与模型类型的耦合关系。关注点:1) 配置系统中模型类型与调度策略的交互逻辑;2) 异步调度对不同工作负载的性能影响权衡;3) 未来Runner V2架构可能如何解决当前限制。

2026-04-11
功能 重要性 6.00 洞察度 5.00

添加 logit_scale 参数到 PoolerConfig,支持仿射分数校准,扩展池化器功能。

v1 feature pooling model

建议工程师阅读此 PR 以理解池化器校准机制,特别是 `logit_bias` 和 `logit_scale` 的应用顺序。关注 `docs/models/pooling_models/classify.md` 的更新,了解使用示例。对于设计决策,注意 `logit_bias` 减法的历史和未来重命名计划。

2026-04-10

#38800 [New Model]: jinaai/jina-reranker-v3

作者 noooop · 合并时间 2026-04-10 23:20

功能 重要性 6.00 洞察度 6.00

添加对jinaai/jina-reranker-v3重排模型的支持,实现模型、IO处理器和测试。

model pooling v1 feature

建议技术管理者和工程师精读JinaForRanking的实现,了解如何基于现有模型(如Qwen3)扩展池化模型;关注IO处理器中的输入格式化逻辑(format_docs_prompts_func),这是模型特殊设计的关键;同时留意测试覆盖的完整性和依赖关系,以便后续维护。