Prhub
← 返回仓库详情

标签聚合

vllm-project/vllm · 标签视图

标签列表

聚合结果

gemma4 相关 PR

2026-04-09

#39045 [Gemma4] Support quantized MoE

作者 dsikka · 合并时间 2026-04-09 09:57

功能 重要性 5.00 洞察度 5.00

支持Gemma4量化MoE模型权重加载,扩展2D量化专家参数映射逻辑。

quantization model v1 gemma4

该PR值得精读,特别是权重映射和正则表达式重映射的设计决策,展示了如何处理量化参数与原始权重的命名差异。关注`load_weights`中的前缀匹配逻辑和`_weight_iterator`中的重映射策略。

2026-04-06

#38879 [Gemma4] Enable Fast Prefill Optimization

作者 LucasWilkinson · 合并时间 2026-04-06 23:19

性能优化 重要性 6.00 洞察度 5.00

为 Gemma 4 模型启用快速预填充优化,显著降低首字节延迟并提升吞吐量。

gemma4 performance v1 model

建议技术管理者和工程师精读此 PR,特别是关注 `Gemma4SelfDecoderLayers` 类的设计和快速预填充逻辑的实现。值得注意的设计决策包括条件化编译和 KV 共享元数据的使用,对于类似模型性能优化具有借鉴价值。