Prhub

vllm-project/vllm · 标签视图

标签列表

聚合结果

model 相关 PR

2026-06-04
功能 重要性 9.18 洞察度 5.00

新增 Gemma4 Unified 编码器无关多模态模型

值得精读,特别关注子类化父类避免分支的设计模式,以及量化条件处理和嵌入数据类型的讨论。后续需要跟进 PR#44340 的修复并验证音频回归。

2026-06-03

#42187 [ModelRunnerV2] Avoid pipeline parallel bubbles

原始 PR · 作者 njhill · 合并时间 2026-06-03 05:02

性能优化 重要性 9.36 洞察度 7.00

重构PP调度避免气泡,吞吐最高提升3倍

此 PR 是 ModelRunnerV2 的重要性能里程碑,强烈建议精读。重点关注 `PPHandler` 的延迟消费与专用通信器设计,这是一种解耦同步通信的通用模式。同时关注 CPU mirror 与 GPU 状态一致性维护策略。建议在后续 PR 中增加更多极端场景测试(如高并发出错恢复)。

功能 重要性 6.71 洞察度 5.00

MRV2 支持 Llama 与 Mistral 密集模型

建议在合并后密切监控 Llama/Mistral 相关测试的稳定性,并优先处理 force_v1_runner 的环境变量覆盖问题。该 PR 值得精读,展示了 MRV2 激活的标准流程测试适配模式。

2026-06-02
缺陷修复 重要性 5.40 洞察度 3.00

修复 Kimi-Linear 模型 AITER 融合崩溃

建议合并。修复是精确且低风险的,已通过 e2e 验证。未来可考虑在类似属性访问模式中统一使用 `getattr` 回退或定义接口契约。

缺陷修复 重要性 5.60 洞察度 4.00

修复多模态模型 GDN prefill 后端选择 bug

此 PR 是典型的数据契约 bugfix,改动极小但影响关键路径,值得快速合入。建议关注类似的多模态配置属性访问模式,并在仓库内建立统一使用 `hf_text_config` 的惯例。

缺陷修复 重要性 6.21 洞察度 5.00

修复混合Mamba模型block_size同步问题

该 PR 是一个针对明确 bug 的精准修复,改动量小,逻辑清晰,且带有单元测试。值得精读,尤其是理解 `_align_hybrid_block_size` 对 block_size 的影响以及 `EngineCoreReadyResponse` 的同步机制。对于维护监控指标正确性的开发者有参考价值。