#40681 [Model] Support Hy3 preview

原始 PR 作者 stevenkuang-tencent 合并时间 2026-04-23 22:08 文件变更 16 提交数 5 评论 9 代码增减 +2696 / -0

执行摘要

支持腾讯混元 Hy3-preview MoE 模型

Hy3-preview是腾讯混元团队开发的最新MoE模型，结合快慢思考，首次使用重建后的基础设施训练，在推理、指令跟随、编码和agent能力上有显著提升。本PR旨在将其集成到vLLM中，使用户能够部署和运行此模型。

值得精读，尤其是MoE集成、MTP推测解码、自定义解析器设计，以及vLLM模型扩展模式。建议在后续迭代中修复讨论中提出的安全性和正确性问题。

讨论亮点

expert_bias初始化：gemini-code-assist[bot] 指出 torch.empty 导致未初始化值，建议改为 torch.zeros，避免随机噪声影响MoE路由。未得到作者回复，但PR已合并。
inputs_embeds就地修改：在MTP层中使用 inputs_embeds[positions == 0] = 0 可能导致共享张量副作用，建议先clone。未修复。
标量索引错误：标量张量使用 [0] 会引发 IndexError，建议检查维度。未修复。
推理流式解析：使用 find 检测 </think> 标记在分片时可能失败，建议依赖基类处理。未修复。
JSON转义不完整：手动转义缺少控制字符，建议使用 json.dumps。未修复。

实现拆解

模型配置：在 vllm/transformers_utils/configs/hy_v3.py 中添加 HYV3Config 类，继承 PretrainedConfig，定义所有模型参数，如 vocab_size, hidden_size, num_experts, rope_parameters 等。
核心模型架构：在 vllm/model_executor/models/hy_v3.py 中实现 HYV3Model，包括嵌入层、HYV3DecoderLayer（包含 HYV3Attention、HYV3FeedForward 和 HYV3MoEFused）、LogitsProcessor。MoE层使用 FusedMoE 和 GateLinear，支持专家并行和top-k路由。
多令牌预测（MTP）：在 vllm/model_executor/models/hy_v3_mtp.py 中添加 HYV3MultiTokenPredictor 和 HYV3MultiTokenPredictorLayer，用于推测解码过程中的后续令牌预测。使用 HYV3SharedHead 共享词嵌入权重。
推理解析器：在 vllm/reasoning/hy_v3_reasoning_parser.py 中实现 HYV3ReasoningParser，继承 BaseThinkingReasoningParser，根据 reasoning_effort 参数动态选择是否启用思维链抽取或直接透传（IdentityReasoningParser）。
工具调用解析器：在 vllm/tool_parsers/hy_v3_tool_parser.py 中实现 HYV3ToolParser，支持解析 <tool_calls> 格式，处理参数类型归一化、JSON转义、流式输出等。
注册与集成：在 vllm/model_executor/models/registry.py 中注册模型；在 vllm/reasoning/__init__.py 和 vllm/tool_parsers/__init__.py 中注册解析器；在 vllm/config/speculative.py 和 vllm/model_executor/model_loader/weight_utils.py 中调整以支持新的配置和权重加载。

文件	模块	状态	重要度
`vllm/model_executor/models/hy_v3.py`	模型核心	added	9.17
`vllm/model_executor/models/hy_v3_mtp.py`	MTP	added	9.28
`vllm/tool_parsers/hy_v3_tool_parser.py`	工具解析	added	8.89
`vllm/reasoning/hy_v3_reasoning_parser.py`	推理解析	added	8.74
`vllm/transformers_utils/configs/hy_v3.py`	配置模型	added	8.11
`tests/tool_parsers/test_hy_v3_tool_parser.py`	工具测试	added	7.48
`tests/reasoning/test_hy_v3_reasoning_parser.py`	推理测试	added	7.24
`vllm/config/speculative.py`	配置层	modified	5.04
`vllm/model_executor/model_loader/weight_utils.py`	权重加载	modified	4.91
`vllm/model_executor/models/registry.py`	模型注册	modified	5.1
`vllm/reasoning/__init__.py`	推理注册	modified	4.67
`vllm/tool_parsers/__init__.py`	工具注册	modified	4.67

关键符号

HYV3Model.forward HYV3MultiTokenPredictor.forward HYV3ToolParser.extract_tool_calls HYV3ReasoningParser.extract_reasoning_streaming HYV3MoEFused.forward

关键源码片段

vllm/model_executor/models/hy_v3.py data-contract

核心模型实现，包含 HYV3Model、DecoderLayer、Attention、FeedForward、MoEFused 等全部骨干结构，是模型主文件。

class HYV3MoEFused(nn.Module):
    def __init__(
        self,
        config: HYV3Config,
        quant_config: QuantizationConfig | None = None,
        prefix: str = "",
        enable_eplb: bool = False,
    ):
        super().__init__()
        self.tp_size = get_tensor_model_parallel_world_size()
        self.ep_group = get_ep_group().device_group
        self.ep_rank = get_ep_group().rank_in_group
        self.ep_size = self.ep_group.size()
        self.n_routed_experts = config.num_experts
        # 确保张量并行大小不超过专家数量
        if self.tp_size > config.num_experts:
            raise ValueError(
                f"Tensor parallel size {self.tp_size} is greater than "
                f"the number of experts {config.num_experts}."
            )
        # 使用 FusedMoE 实现专家混合，支持 top-k 路由和专家并行
        self.gate = GateLinear(
            config.hidden_size,
            config.num_experts,
            bias=False,
            quant_config=quant_config,
            prefix=f"{prefix}.gate",
        )
        self.experts = FusedMoE(
            num_experts=config.num_experts,
            top_k=config.num_experts_per_tok,
            hidden_size=config.hidden_size,
            intermediate_size=config.intermediate_size,
            quant_config=quant_config,
            prefix=f"{prefix}.experts",
        )
        # 注意：expert_bias 使用 torch.empty 初始化，建议改为 zeros
        self.expert_bias = nn.Parameter(torch.empty(config.num_experts))

vllm/model_executor/models/hy_v3_mtp.py data-contract

多令牌预测（MTP）实现，用于推测解码，包含共享头、MTP 层和预测器。

class HYV3MultiTokenPredictorLayer(nn.Module):
    def forward(
        self,
        input_ids: torch.Tensor,
        positions: torch.Tensor,
        previous_hidden_states: torch.Tensor,
        inputs_embeds: torch.Tensor | None = None,
        spec_step_index: int = 0,
    ) -> torch.Tensor:
        # 注意：此处就地修改 inputs_embeds 可能导致副作用，建议先 clone
        inputs_embeds[positions == 0] = 0
        inputs_embeds = self.enorm(inputs_embeds)
        previous_hidden_states = self.hnorm(previous_hidden_states)
        # 拼接当前嵌入和前一隐藏状态
        hidden_states = self.eh_proj(
            torch.cat([inputs_embeds, previous_hidden_states], dim=-1)
        )
        # 通过一个完整的 HYV3DecoderLayer
        hidden_states, _ = self.mtp_block(hidden_states, positions=positions)
        hidden_states = self.final_layernorm(hidden_states)
        return hidden_states

vllm/tool_parsers/hy_v3_tool_parser.py dependency-wiring

工具调用解析器，负责解析模型输出的 <tool_calls> 格式并转换为内部工具调用结构。

class HYV3ToolParser(ToolParser):
    # 类型别名映射到 JSON Schema 标准类型
    _TYPE_ALIASES: dict[str, str] = {
        "str": "string",
        "bool": "boolean",
        "int": "integer",
        "float": "number",
        # ... 更多别名
    }
    # 前缀匹配用于非标准类型名
    _INTEGER_PREFIXES = ("int", "uint", "long", "short", "unsigned")
    _NUMBER_PREFIXES = ("num", "float")

    @staticmethod
    def _normalize_type(raw_type: str) -> str:
        """映射非标准类型别名到JSON Schema标准名"""
        exact = HYV3ToolParser._TYPE_ALIASES.get(raw_type)
        if exact is not None:
            return exact
        lower = raw_type.lower()
        if any(lower.startswith(p) for p in HYV3ToolParser._INTEGER_PREFIXES):
            return "integer"
        if any(lower.startswith(p) for p in HYV3ToolParser._NUMBER_PREFIXES):
            return "number"
        return raw_type # 未知类型原样返回