japanese-clip/japanese_clip/clip/modeling_clip.py


								# coding=utf-8

								# Copyright 2022 rinna Co., Ltd.

								#

								# Licensed under the Apache License, Version 2.0 (the "License");

								# you may not use this file except in compliance with the License.

								# You may obtain a copy of the License at

								#

								#     http://www.apache.org/licenses/LICENSE-2.0

								#

								# Unless required by applicable law or agreed to in writing, software

								# distributed under the License is distributed on an "AS IS" BASIS,

								# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

								# See the License for the specific language governing permissions and

								# limitations under the License.

								import logging

								from dataclasses import dataclass

								from typing import Any, Optional, Tuple, Union


								import torch

								import torch.utils.checkpoint

								from torch import nn


								from transformers import AutoModel

								from transformers.activations import ACT2FN

								from transformers.modeling_outputs import BaseModelOutput, BaseModelOutputWithPooling

								from transformers.modeling_utils import PreTrainedModel, ModelOutput

								from .configuration_clip import CLIPConfig, CLIPTextConfig, CLIPVisionConfig


								logger = logging.getLogger(__name__)


								# Copied from transformers.models.bart.modeling_bart._expand_mask

								def _expand_mask(mask: torch.Tensor, dtype: torch.dtype, tgt_len: Optional[int] = None):

								    """

								    Expands attention_mask from `[bsz, seq_len]` to `[bsz, 1, tgt_seq_len, src_seq_len]`.

								    """

								    bsz, src_len = mask.size()

								    tgt_len = tgt_len if tgt_len is not None else src_len


								    expanded_mask = mask[:, None, None, :].expand(bsz, 1, tgt_len, src_len).to(dtype)


								    inverted_mask = 1.0 - expanded_mask


								    return inverted_mask.masked_fill(inverted_mask.bool(), torch.finfo(dtype).min)


								# contrastive loss function, adapted from

								# https://sachinruk.github.io/blog/pytorch/pytorch%20lightning/loss%20function/gpu/2021/03/07/CLIP.html

								def contrastive_loss(logits: torch.Tensor) -> torch.Tensor:

								    return nn.functional.cross_entropy(logits, torch.arange(len(logits), device=logits.device))


								def clip_loss(similarity: torch.Tensor) -> torch.Tensor:

								    caption_loss = contrastive_loss(similarity)

								    image_loss = contrastive_loss(similarity.T)

								    return (caption_loss + image_loss) / 2.0


								@dataclass

								class CLIPOutput(ModelOutput):

								    loss: Optional[torch.FloatTensor] = None

								    logits_per_image: torch.FloatTensor = None

								    logits_per_text: torch.FloatTensor = None

								    text_embeds: torch.FloatTensor = None

								    image_embeds: torch.FloatTensor = None

								    text_model_output: BaseModelOutputWithPooling = None

								    vision_model_output: BaseModelOutputWithPooling = None


								    def to_tuple(self) -> Tuple[Any]:

								        return tuple(

								            self[k] if k not in ["text_model_output", "vision_model_output"] else getattr(self, k).to_tuple()

								            for k in self.keys()

								        )


								class CLIPVisionEmbeddings(nn.Module):

								    def __init__(self, config: CLIPVisionConfig):

								        super().__init__()

								        self.config = config

								        self.embed_dim = config.hidden_size

								        self.image_size = config.image_size

								        self.patch_size = config.patch_size


								        self.class_embedding = nn.Parameter(torch.randn(self.embed_dim))


								        self.patch_embedding = nn.Conv2d(

								            in_channels=3, out_channels=self.embed_dim, kernel_size=self.patch_size, stride=self.patch_size, bias=False

								        )


								        self.num_patches = (self.image_size // self.patch_size) ** 2

								        self.num_positions = self.num_patches + 1

								        self.position_embedding = nn.Embedding(self.num_positions, self.embed_dim)

								        self.register_buffer("position_ids", torch.arange(self.num_positions).expand((1, -1)))


								    def forward(self, pixel_values: torch.FloatTensor) -> torch.Tensor:

								        batch_size = pixel_values.shape[0]

								        patch_embeds = self.patch_embedding(pixel_values)  # shape = [*, width, grid, grid]

								        patch_embeds = patch_embeds.flatten(2).transpose(1, 2)


								        class_embeds = self.class_embedding.expand(batch_size, 1, -1)

								        embeddings = torch.cat([class_embeds, patch_embeds], dim=1)

								        embeddings = embeddings + self.position_embedding(self.position_ids)

								        return embeddings


								class CLIPTextEmbeddings(nn.Module):

								    def __init__(self, config: CLIPTextConfig):

								        super().__init__()

								        embed_dim = config.hidden_size


								        self.token_embedding = nn.Embedding(config.vocab_size, embed_dim)

								        self.position_embedding = nn.Embedding(config.max_position_embeddings, embed_dim)


								        # position_ids (1, len position emb) is contiguous in memory and exported when serialized

								        self.register_buffer("position_ids", torch.arange(config.max_position_embeddings).expand((1, -1)))


								    def forward(

								        self,

								        input_ids: Optional[torch.LongTensor] = None,

								        position_ids: Optional[torch.LongTensor] = None,

								        inputs_embeds: Optional[torch.FloatTensor] = None,

								    ) -> torch.Tensor:

								        seq_length = input_ids.shape[-1] if input_ids is not None else inputs_embeds.shape[-2]


								        if position_ids is None:

								            position_ids = self.position_ids[:, :seq_length]


								        if inputs_embeds is None:

								            inputs_embeds = self.token_embedding(input_ids)


								        position_embeddings = self.position_embedding(position_ids)

								        embeddings = inputs_embeds + position_embeddings


								        return embeddings


								class CLIPAttention(nn.Module):

								    """Multi-headed attention from 'Attention Is All You Need' paper"""


								    def __init__(self, config):

								        super().__init__()

								        self.config = config

								        self.embed_dim = config.hidden_size

								        self.num_heads = config.num_attention_heads

								        self.head_dim = self.embed_dim // self.num_heads

								        if self.head_dim * self.num_heads != self.embed_dim:

								            raise ValueError(

								                f"embed_dim must be divisible by num_heads (got `embed_dim`: {self.embed_dim} and `num_heads`:"

								                f" {self.num_heads})."

								            )

								        self.scale = self.head_dim**-0.5

								        self.dropout = config.attention_dropout


								        self.k_proj = nn.Linear(self.embed_dim, self.embed_dim)

								        self.v_proj = nn.Linear(self.embed_dim, self.embed_dim)

								        self.q_proj = nn.Linear(self.embed_dim, self.embed_dim)

								        self.out_proj = nn.Linear(self.embed_dim, self.embed_dim)


								    def _shape(self, tensor: torch.Tensor, seq_len: int, bsz: int):

								        return tensor.view(bsz, seq_len, self.num_heads, self.head_dim).transpose(1, 2).contiguous()


								    def forward(

								        self,

								        hidden_states: torch.Tensor,

								        attention_mask: Optional[torch.Tensor] = None,

								        causal_attention_mask: Optional[torch.Tensor] = None,

								        output_attentions: Optional[bool] = False,

								    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:

								        """Input shape: Batch x Time x Channel"""


								        bsz, tgt_len, embed_dim = hidden_states.size()


								        # get query proj

								        query_states = self.q_proj(hidden_states) * self.scale

								        key_states = self._shape(self.k_proj(hidden_states), -1, bsz)

								        value_states = self._shape(self.v_proj(hidden_states), -1, bsz)


								        proj_shape = (bsz * self.num_heads, -1, self.head_dim)

								        query_states = self._shape(query_states, tgt_len, bsz).view(*proj_shape)

								        key_states = key_states.view(*proj_shape)

								        value_states = value_states.view(*proj_shape)


								        src_len = key_states.size(1)

								        attn_weights = torch.bmm(query_states, key_states.transpose(1, 2))


								        if attn_weights.size() != (bsz * self.num_heads, tgt_len, src_len):

								            raise ValueError(

								                f"Attention weights should be of size {(bsz * self.num_heads, tgt_len, src_len)}, but is"

								                f" {attn_weights.size()}"

								            )


								        # apply the causal_attention_mask first

								        if causal_attention_mask is not None:

								            if causal_attention_mask.size() != (bsz, 1, tgt_len, src_len):

								                raise ValueError(

								                    f"Attention mask should be of size {(bsz, 1, tgt_len, src_len)}, but is"

								                    f" {causal_attention_mask.size()}"

								                )

								            attn_weights = attn_weights.view(bsz, self.num_heads, tgt_len, src_len) + causal_attention_mask

								            attn_weights = attn_weights.view(bsz * self.num_heads, tgt_len, src_len)


								        if attention_mask is not None:

								            if attention_mask.size() != (bsz, 1, tgt_len, src_len):

								                raise ValueError(

								                    f"Attention mask should be of size {(bsz, 1, tgt_len, src_len)}, but is {attention_mask.size()}"

								                )

								            attn_weights = attn_weights.view(bsz, self.num_heads, tgt_len, src_len) + attention_mask

								            attn_weights = attn_weights.view(bsz * self.num_heads, tgt_len, src_len)


								        attn_weights = nn.functional.softmax(attn_weights, dim=-1)


								        if output_attentions:

								            # this operation is a bit akward, but it's required to

								            # make sure that attn_weights keeps its gradient.

								            # In order to do so, attn_weights have to reshaped

								            # twice and have to be reused in the following

								            attn_weights_reshaped = attn_weights.view(bsz, self.num_heads, tgt_len, src_len)

								            attn_weights = attn_weights_reshaped.view(bsz * self.num_heads, tgt_len, src_len)

								        else:

								            attn_weights_reshaped = None


								        attn_probs = nn.functional.dropout(attn_weights, p=self.dropout, training=self.training)


								        attn_output = torch.bmm(attn_probs, value_states)


								        if attn_output.size() != (bsz * self.num_heads, tgt_len, self.head_dim):

								            raise ValueError(

								                f"`attn_output` should be of size {(bsz, self.num_heads, tgt_len, self.head_dim)}, but is"

								                f" {attn_output.size()}"

								            )


								        attn_output = attn_output.view(bsz, self.num_heads, tgt_len, self.head_dim)

								        attn_output = attn_output.transpose(1, 2)

								        attn_output = attn_output.reshape(bsz, tgt_len, embed_dim)


								        attn_output = self.out_proj(attn_output)


								        return attn_output, attn_weights_reshaped


								class CLIPMLP(nn.Module):

								    def __init__(self, config):

								        super().__init__()

								        self.config = config

								        self.activation_fn = ACT2FN[config.hidden_act]

								        self.fc1 = nn.Linear(config.hidden_size, config.intermediate_size)

								        self.fc2 = nn.Linear(config.intermediate_size, config.hidden_size)


								    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:

								        hidden_states = self.fc1(hidden_states)

								        hidden_states = self.activation_fn(hidden_states)

								        hidden_states = self.fc2(hidden_states)

								        return hidden_states


								class CLIPEncoderLayer(nn.Module):

								    def __init__(self, config: CLIPConfig):

								        super().__init__()

								        self.embed_dim = config.hidden_size

								        self.self_attn = CLIPAttention(config)

								        self.layer_norm1 = nn.LayerNorm(self.embed_dim)

								        self.mlp = CLIPMLP(config)

								        self.layer_norm2 = nn.LayerNorm(self.embed_dim)


								    def forward(

								        self,

								        hidden_states: torch.Tensor,

								        attention_mask: torch.Tensor,

								        causal_attention_mask: torch.Tensor,

								        output_attentions: Optional[bool] = False,

								    ) -> Tuple[torch.FloatTensor]:

								        """

								        Args:

								            hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`

								            attention_mask (`torch.FloatTensor`): attention mask of size

								                `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.

								                `(config.encoder_attention_heads,)`.

								            output_attentions (`bool`, *optional*):

								                Whether or not to return the attentions tensors of all attention layers. See `attentions` under

								                returned tensors for more detail.

								        """

								        residual = hidden_states


								        hidden_states = self.layer_norm1(hidden_states)

								        hidden_states, attn_weights = self.self_attn(

								            hidden_states=hidden_states,

								            attention_mask=attention_mask,

								            causal_attention_mask=causal_attention_mask,

								            output_attentions=output_attentions,

								        )

								        hidden_states = residual + hidden_states


								        residual = hidden_states

								        hidden_states = self.layer_norm2(hidden_states)

								        hidden_states = self.mlp(hidden_states)

								        hidden_states = residual + hidden_states


								        outputs = (hidden_states,)


								        if output_attentions:

								            outputs += (attn_weights,)


								        return outputs


								class CLIPPreTrainedModel(PreTrainedModel):

								    """

								    An abstract class to handle weights initialization and a simple interface for downloading and loading pretrained

								    models.

								    """


								    config_class = CLIPConfig

								    base_model_prefix = "clip"

								    supports_gradient_checkpointing = True

								    _keys_to_ignore_on_load_missing = [r"position_ids"]


								    def _init_weights(self, module):

								        """Initialize the weights"""

								        factor = self.config.initializer_factor

								        if isinstance(module, CLIPTextEmbeddings):

								            module.token_embedding.weight.data.normal_(mean=0.0, std=factor * 0.02)

								            module.position_embedding.weight.data.normal_(mean=0.0, std=factor * 0.02)

								        elif isinstance(module, CLIPVisionEmbeddings):

								            factor = self.config.initializer_factor

								            nn.init.normal_(module.class_embedding, mean=0.0, std=module.embed_dim**-0.5 * factor)

								            nn.init.normal_(module.patch_embedding.weight, std=module.config.initializer_range * factor)

								            nn.init.normal_(module.position_embedding.weight, std=module.config.initializer_range * factor)

								        elif isinstance(module, CLIPAttention):

								            factor = self.config.initializer_factor

								            in_proj_std = (module.embed_dim**-0.5) * ((2 * module.config.num_hidden_layers) ** -0.5) * factor

								            out_proj_std = (module.embed_dim**-0.5) * factor

								            nn.init.normal_(module.q_proj.weight, std=in_proj_std)

								            nn.init.normal_(module.k_proj.weight, std=in_proj_std)

								            nn.init.normal_(module.v_proj.weight, std=in_proj_std)

								            nn.init.normal_(module.out_proj.weight, std=out_proj_std)

								        elif isinstance(module, CLIPMLP):

								            factor = self.config.initializer_factor

								            in_proj_std = (

								                (module.config.hidden_size**-0.5) * ((2 * module.config.num_hidden_layers) ** -0.5) * factor

								            )

								            fc_std = (2 * module.config.hidden_size) ** -0.5 * factor

								            nn.init.normal_(module.fc1.weight, std=fc_std)

								            nn.init.normal_(module.fc2.weight, std=in_proj_std)

								        elif isinstance(module, CLIPModel):

								            nn.init.normal_(

								                module.text_projection.weight,

								                std=module.text_embed_dim**-0.5 * self.config.initializer_factor,

								            )

								            nn.init.normal_(

								                module.visual_projection.weight,

								                std=module.vision_embed_dim**-0.5 * self.config.initializer_factor,

								            )


								        if isinstance(module, nn.LayerNorm):

								            module.bias.data.zero_()

								            module.weight.data.fill_(1.0)

								        if isinstance(module, nn.Linear) and module.bias is not None:

								            module.bias.data.zero_()


								    def _set_gradient_checkpointing(self, module, value=False):

								        if isinstance(module, CLIPEncoder):

								            module.gradient_checkpointing = value


								class CLIPEncoder(nn.Module):

								    """

								    Transformer encoder consisting of `config.num_hidden_layers` self attention layers. Each layer is a

								    [`CLIPEncoderLayer`].

								    Args:

								        config: CLIPConfig

								    """


								    def __init__(self, config: CLIPConfig):

								        super().__init__()

								        self.config = config

								        self.layers = nn.ModuleList([CLIPEncoderLayer(config) for _ in range(config.num_hidden_layers)])

								        self.gradient_checkpointing = False


								    def forward(

								        self,

								        inputs_embeds,

								        attention_mask: Optional[torch.Tensor] = None,

								        causal_attention_mask: Optional[torch.Tensor] = None,

								        output_attentions: Optional[bool] = None,

								        output_hidden_states: Optional[bool] = None,

								        return_dict: Optional[bool] = None,

								    ) -> Union[Tuple, BaseModelOutput]:

								        r"""

								        Args:

								            inputs_embeds (`torch.FloatTensor` of shape `(batch_size, sequence_length, hidden_size)`):

								                Optionally, instead of passing `input_ids` you can choose to directly pass an embedded representation.

								                This is useful if you want more control over how to convert `input_ids` indices into associated vectors

								                than the model's internal embedding lookup matrix.

								            attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):

								                Mask to avoid performing attention on padding token indices. Mask values selected in `[0, 1]`:

								                - 1 for tokens that are **not masked**,

								                - 0 for tokens that are **masked**.

								                [What are attention masks?](../glossary#attention-mask)

								            causal_attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, *optional*):

								                Causal mask for the text model. Mask values selected in `[0, 1]`:

								                - 1 for tokens that are **not masked**,

								                - 0 for tokens that are **masked**.

								                [What are attention masks?](../glossary#attention-mask)

								            output_attentions (`bool`, *optional*):

								                Whether or not to return the attentions tensors of all attention layers. See `attentions` under

								                returned tensors for more detail.

								            output_hidden_states (`bool`, *optional*):

								                Whether or not to return the hidden states of all layers. See `hidden_states` under returned tensors

								                for more detail.

								            return_dict (`bool`, *optional*):

								                Whether or not to return a [`~utils.ModelOutput`] instead of a plain tuple.

								        """

								        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions

								        output_hidden_states = (

								            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states

								        )

								        return_dict = return_dict if return_dict is not None else self.config.use_return_dict


								        encoder_states = () if output_hidden_states else None

								        all_attentions = () if output_attentions else None


								        hidden_states = inputs_embeds

								        for idx, encoder_layer in enumerate(self.layers):

								            if output_hidden_states:

								                encoder_states = encoder_states + (hidden_states,)

								            if self.gradient_checkpointing and self.training:


								                def create_custom_forward(module):

								                    def custom_forward(*inputs):

								                        return module(*inputs, output_attentions)


								                    return custom_forward


								                layer_outputs = torch.utils.checkpoint.checkpoint(

								                    create_custom_forward(encoder_layer),

								                    hidden_states,

								                    attention_mask,

								                    causal_attention_mask,

								                )

								            else:

								                layer_outputs = encoder_layer(

								                    hidden_states,

								                    attention_mask,

								                    causal_attention_mask,

								                    output_attentions=output_attentions,

								                )


								            hidden_states = layer_outputs[0]


								            if output_attentions:

								                all_attentions = all_attentions + (layer_outputs[1],)


								        if output_hidden_states:

								            encoder_states = encoder_states + (hidden_states,)


								        if not return_dict:

								            return tuple(v for v in [hidden_states, encoder_states, all_attentions] if v is not None)

								        return BaseModelOutput(

								            last_hidden_state=hidden_states, hidden_states=encoder_states, attentions=all_attentions

								        )


								class CLIPTextTransformer(nn.Module):

								    def __init__(self, config: CLIPTextConfig):

								        super().__init__()

								        self.config = config

								        embed_dim = config.hidden_size

								        self.embeddings = CLIPTextEmbeddings(config)

								        self.encoder = CLIPEncoder(config)

								        self.final_layer_norm = nn.LayerNorm(embed_dim)


								    def forward(

								        self,

								        input_ids: Optional[torch.Tensor] = None,

								        attention_mask: Optional[torch.Tensor] = None,

								        position_ids: Optional[torch.Tensor] = None,

								        output_attentions: Optional[bool] = None,

								        output_hidden_states: Optional[bool] = None,

								        return_dict: Optional[bool] = None,

								    ) -> Union[Tuple, BaseModelOutputWithPooling]:

								        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions

								        output_hidden_states = (

								            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states

								        )

								        return_dict = return_dict if return_dict is not None else self.config.use_return_dict


								        if input_ids is None:

								            raise ValueError("You have to specify either input_ids")


								        input_shape = input_ids.size()

								        input_ids = input_ids.view(-1, input_shape[-1])


								        hidden_states = self.embeddings(input_ids=input_ids, position_ids=position_ids)


								        bsz, seq_len = input_shape

								        # CLIP's text model uses causal mask, prepare it here.

								        # https://github.com/openai/CLIP/blob/cfcffb90e69f37bf2ff1e988237a0fbe41f33c04/clip/model.py#L324

								        causal_attention_mask = self._build_causal_attention_mask(bsz, seq_len).to(hidden_states.device)

								        # expand attention_mask

								        if attention_mask is not None:

								            # [bsz, seq_len] -> [bsz, 1, tgt_seq_len, src_seq_len]

								            attention_mask = _expand_mask(attention_mask, hidden_states.dtype)


								        encoder_outputs = self.encoder(

								            inputs_embeds=hidden_states,

								            attention_mask=attention_mask,

								            causal_attention_mask=causal_attention_mask,

								            output_attentions=output_attentions,

								            output_hidden_states=output_hidden_states,

								            return_dict=return_dict,

								        )


								        last_hidden_state = encoder_outputs[0]

								        last_hidden_state = self.final_layer_norm(last_hidden_state)


								        # text_embeds.shape = [batch_size, sequence_length, transformer.width]

								        # take features from the eot embedding (eot_token is the highest number in each sequence)

								        pooled_output = last_hidden_state[torch.arange(last_hidden_state.shape[0]), input_ids.argmax(dim=-1)]


								        if not return_dict:

								            return (last_hidden_state, pooled_output) + encoder_outputs[1:]


								        return BaseModelOutputWithPooling(

								            last_hidden_state=last_hidden_state,

								            pooler_output=pooled_output,

								            hidden_states=encoder_outputs.hidden_states,

								            attentions=encoder_outputs.attentions,

								        )


								    def _build_causal_attention_mask(self, bsz, seq_len):

								        # lazily create causal attention mask, with full attention between the vision tokens

								        # pytorch uses additive attention mask; fill with -inf

								        mask = torch.empty(bsz, seq_len, seq_len)

								        mask.fill_(float("-inf"))

								        mask.triu_(1)  # zero out the lower diagonal

								        mask = mask.unsqueeze(1)  # expand mask

								        return mask


								class CLIPTextModel(CLIPPreTrainedModel):

								    config_class = CLIPTextConfig


								    def __init__(self, config: CLIPTextConfig):

								        super().__init__(config)

								        self.text_model = CLIPTextTransformer(config)

								        # Initialize weights and apply final processing

								        self.post_init()


								    def get_input_embeddings(self) -> nn.Module:

								        return self.text_model.embeddings.token_embedding


								    def set_input_embeddings(self, value):

								        self.text_model.embeddings.token_embedding = value


								    def forward(

								        self,

								        input_ids: Optional[torch.Tensor] = None,

								        attention_mask: Optional[torch.Tensor] = None,

								        position_ids: Optional[torch.Tensor] = None,

								        output_attentions: Optional[bool] = None,

								        output_hidden_states: Optional[bool] = None,

								        return_dict: Optional[bool] = None,

								    ) -> Union[Tuple, BaseModelOutputWithPooling]:

								        return self.text_model(

								            input_ids=input_ids,

								            attention_mask=attention_mask,

								            position_ids=position_ids,

								            output_attentions=output_attentions,

								            output_hidden_states=output_hidden_states,

								            return_dict=return_dict,

								        )


								class CLIPVisionTransformer(nn.Module):

								    def __init__(self, config: CLIPVisionConfig):

								        super().__init__()

								        self.config = config

								        embed_dim = config.hidden_size


								        self.embeddings = CLIPVisionEmbeddings(config)

								        self.pre_layrnorm = nn.LayerNorm(embed_dim)

								        self.encoder = CLIPEncoder(config)

								        self.post_layernorm = nn.LayerNorm(embed_dim)


								    def forward(

								        self,

								        pixel_values: Optional[torch.FloatTensor] = None,

								        output_attentions: Optional[bool] = None,

								        output_hidden_states: Optional[bool] = None,

								        return_dict: Optional[bool] = None,

								    ) -> Union[Tuple, BaseModelOutputWithPooling]:

								        r"""

								        Returns:

								        """

								        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions

								        output_hidden_states = (

								            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states

								        )

								        return_dict = return_dict if return_dict is not None else self.config.use_return_dict


								        if pixel_values is None:

								            raise ValueError("You have to specify pixel_values")


								        hidden_states = self.embeddings(pixel_values)

								        hidden_states = self.pre_layrnorm(hidden_states)


								        encoder_outputs = self.encoder(

								            inputs_embeds=hidden_states,

								            output_attentions=output_attentions,

								            output_hidden_states=output_hidden_states,

								            return_dict=return_dict,

								        )


								        last_hidden_state = encoder_outputs[0]

								        pooled_output = last_hidden_state[:, 0, :]

								        pooled_output = self.post_layernorm(pooled_output)


								        if not return_dict:

								            return (last_hidden_state, pooled_output) + encoder_outputs[1:]


								        return BaseModelOutputWithPooling(

								            last_hidden_state=last_hidden_state,

								            pooler_output=pooled_output,

								            hidden_states=encoder_outputs.hidden_states,

								            attentions=encoder_outputs.attentions,

								        )


								class CLIPVisionModel(CLIPPreTrainedModel):

								    config_class = CLIPVisionConfig

								    main_input_name = "pixel_values"


								    def __init__(self, config: CLIPVisionConfig):

								        super().__init__(config)

								        self.vision_model = CLIPVisionTransformer(config)

								        # Initialize weights and apply final processing

								        self.post_init()


								    def get_input_embeddings(self) -> nn.Module:

								        return self.vision_model.embeddings.patch_embedding


								    def forward(

								        self,

								        pixel_values: Optional[torch.FloatTensor] = None,

								        output_attentions: Optional[bool] = None,

								        output_hidden_states: Optional[bool] = None,

								        return_dict: Optional[bool] = None,

								    ) -> Union[Tuple, BaseModelOutputWithPooling]:

								        return self.vision_model(

								            pixel_values=pixel_values,

								            output_attentions=output_attentions,

								            output_hidden_states=output_hidden_states,

								            return_dict=return_dict,

								        )


								class CLIPModel(CLIPPreTrainedModel):

								    config_class = CLIPConfig


								    def __init__(self, config: CLIPConfig):

								        super().__init__(config)

								        text_config = config.text_config

								        vision_config = config.vision_config


								        self.projection_dim = config.projection_dim

								        self.text_embed_dim = text_config.hidden_size

								        self.vision_embed_dim = vision_config.hidden_size


								        if isinstance(text_config, CLIPTextConfig):

								            text_model = CLIPTextTransformer(text_config)

								        else:

								            text_model = AutoModel.from_config(config.text_config, add_pooling_layer=False)


								        if isinstance(config.vision_config, CLIPVisionConfig):

								            vision_model = CLIPVisionModel(config.vision_config)

								        else:

								            vision_model = AutoModel.from_config(config.vision_config, add_pooling_layer=False)


								        self.text_model = text_model

								        self.vision_model = vision_model


								        self.visual_projection = nn.Linear(self.vision_embed_dim, self.projection_dim, bias=False)

								        self.text_projection = nn.Linear(self.text_embed_dim, self.projection_dim, bias=False)

								        self.logit_scale = nn.Parameter(torch.ones([]) * self.config.logit_scale_init_value)


								        # Initialize weights and apply final processing

								        self.post_init()


								    def encode_text(self, input_ids, **kwargs):

								        return self.get_text_features(input_ids=input_ids, **kwargs)


								    def get_text_features(

								        self,

								        input_ids: Optional[torch.Tensor] = None,

								        attention_mask: Optional[torch.Tensor] = None,

								        position_ids: Optional[torch.Tensor] = None,

								        output_attentions: Optional[bool] = None,

								        output_hidden_states: Optional[bool] = None,

								        return_dict: Optional[bool] = None,

								    ) -> torch.FloatTensor:

								        # Use CLIP model's config for some fields (if specified) instead of those of vision & text components.

								        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions

								        output_hidden_states = (

								            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states

								        )

								        return_dict = return_dict if return_dict is not None else self.config.use_return_dict


								        text_outputs = self.text_model(

								            input_ids=input_ids,

								            attention_mask=attention_mask,

								            position_ids=position_ids,

								            output_attentions=output_attentions,

								            output_hidden_states=output_hidden_states,

								            return_dict=return_dict,

								        )

								        pooled_output = text_outputs.last_hidden_state[:, 0, :]

								        text_features = self.text_projection(pooled_output)


								        return text_features


								    def encode_image(self, pixel_values, **kwargs):

								        return self.get_image_features(pixel_values=pixel_values, **kwargs)


								    def get_image_features(

								        self,

								        pixel_values: Optional[torch.FloatTensor] = None,

								        output_attentions: Optional[bool] = None,

								        output_hidden_states: Optional[bool] = None,

								        return_dict: Optional[bool] = None,

								    ) -> torch.FloatTensor:

								        # Use CLIP model's config for some fields (if specified) instead of those of vision & text components.

								        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions

								        output_hidden_states = (

								            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states

								        )

								        return_dict = return_dict if return_dict is not None else self.config.use_return_dict


								        vision_outputs = self.vision_model(

								            pixel_values=pixel_values,

								            output_attentions=output_attentions,

								            output_hidden_states=output_hidden_states,

								            return_dict=return_dict,

								        )

								        pooled_output = vision_outputs.last_hidden_state[:, 0, :]

								        image_features = self.visual_projection(pooled_output)


								        return image_features


								    def forward(

								        self,

								        input_ids: Optional[torch.LongTensor] = None,

								        pixel_values: Optional[torch.FloatTensor] = None,

								        attention_mask: Optional[torch.Tensor] = None,

								        position_ids: Optional[torch.LongTensor] = None,

								        return_loss: Optional[bool] = None,

								        output_attentions: Optional[bool] = None,

								        output_hidden_states: Optional[bool] = None,

								        return_dict: Optional[bool] = None,

								    ) -> Union[Tuple, CLIPOutput]:

								        # Use CLIP model's config for some fields (if specified) instead of those of vision & text components.

								        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions

								        output_hidden_states = (

								            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states

								        )

								        return_dict = return_dict if return_dict is not None else self.config.use_return_dict


								        vision_outputs = self.vision_model(

								            pixel_values=pixel_values,

								            output_attentions=output_attentions,

								            output_hidden_states=output_hidden_states,

								            return_dict=return_dict,

								        )


								        text_outputs = self.text_model(

								            input_ids=input_ids,

								            attention_mask=attention_mask,

								            position_ids=position_ids,

								            output_attentions=output_attentions,

								            output_hidden_states=output_hidden_states,

								            return_dict=return_dict,

								        )

								        image_embeds = vision_outputs.last_hidden_state[:, 0, :]

								        image_embeds = self.visual_projection(image_embeds)


								        text_embeds = text_outputs.last_hidden_state[:, 0, :]

								        text_embeds = self.text_projection(text_embeds)


								        # normalized features

								        image_embeds = image_embeds / image_embeds.norm(dim=-1, keepdim=True)

								        text_embeds = text_embeds / text_embeds.norm(dim=-1, keepdim=True)


								        # cosine similarity as logits

								        logit_scale = self.logit_scale.exp()

								        logits_per_text = torch.matmul(text_embeds, image_embeds.t()) * logit_scale

								        logits_per_image = logits_per_text.T


								        loss = None

								        if return_loss:

								            loss = clip_loss(logits_per_text)


								        if not return_dict:

								            output = (logits_per_image, logits_per_text, text_embeds, image_embeds, text_outputs, vision_outputs)

								            return ((loss,) + output) if loss is not None else output


								        return CLIPOutput(

								            loss=loss,

								            logits_per_image=logits_per_image,

								            logits_per_text=logits_per_text,

								            text_embeds=text_embeds,

								            image_embeds=image_embeds,

								            text_model_output=text_outputs,

								            vision_model_output=vision_outputs,

								        )