ru-clip/ruclip/model.py


								# -*- coding: utf-8 -*-

								import os

								import json

								from collections import OrderedDict


								import torch

								import numpy as np

								from torch import nn


								class LayerNorm(nn.LayerNorm):

								    """Subclass torch's LayerNorm to handle fp16."""


								    def forward(self, x: torch.Tensor):

								        orig_type = x.dtype

								        ret = super().forward(x.type(torch.float32))

								        return ret.type(orig_type)


								class QuickGELU(nn.Module):

								    def forward(self, x: torch.Tensor):

								        return x * torch.sigmoid(1.702 * x)


								class ResidualAttentionBlock(nn.Module):

								    def __init__(self, d_model: int, n_head: int, attn_mask: torch.Tensor = None):

								        super().__init__()


								        self.attn = nn.MultiheadAttention(d_model, n_head)

								        self.ln_1 = LayerNorm(d_model)

								        self.mlp = nn.Sequential(OrderedDict([

								            ('c_fc', nn.Linear(d_model, d_model * 4)),

								            ('gelu', QuickGELU()),

								            ('c_proj', nn.Linear(d_model * 4, d_model))

								        ]))

								        self.ln_2 = LayerNorm(d_model)

								        self.attn_mask = attn_mask


								    def attention(self, x: torch.Tensor):

								        self.attn_mask = self.attn_mask.to(dtype=x.dtype, device=x.device) if self.attn_mask is not None else None

								        return self.attn(x, x, x, need_weights=False, attn_mask=self.attn_mask)[0]


								    def forward(self, x: torch.Tensor):

								        x = x + self.attention(self.ln_1(x))

								        x = x + self.mlp(self.ln_2(x))

								        return x


								class Transformer(nn.Module):

								    def __init__(self, width: int, layers: int, heads: int, attn_mask: torch.Tensor = None):

								        super().__init__()

								        self.width = width

								        self.layers = layers

								        self.resblocks = nn.Sequential(*[ResidualAttentionBlock(width, heads, attn_mask) for _ in range(layers)])


								    def forward(self, x: torch.Tensor):

								        return self.resblocks(x)


								class VisionTransformer(nn.Module):

								    def __init__(self, input_resolution: int, patch_size: int, width: int, layers: int, heads: int, output_dim: int):

								        super().__init__()

								        self.input_resolution = input_resolution

								        self.output_dim = output_dim

								        self.conv1 = nn.Conv2d(in_channels=3, out_channels=width, kernel_size=patch_size, stride=patch_size, bias=False)


								        scale = width ** -0.5

								        self.class_embedding = nn.Parameter(scale * torch.randn(width))

								        self.positional_embedding = nn.Parameter(scale * torch.randn((input_resolution // patch_size) ** 2 + 1, width))

								        self.ln_pre = LayerNorm(width)


								        self.transformer = Transformer(width, layers, heads)


								        self.ln_post = LayerNorm(width)

								        self.proj = nn.Parameter(scale * torch.randn(width, output_dim))


								    def forward(self, x: torch.Tensor):

								        x = self.conv1(x)  # shape = [*, width, grid, grid]

								        x = x.reshape(x.shape[0], x.shape[1], -1)  # shape = [*, width, grid ** 2]

								        x = x.permute(0, 2, 1)  # shape = [*, grid ** 2, width]

								        x = torch.cat([

								            self.class_embedding.to(x.dtype) +

								            torch.zeros(x.shape[0], 1, x.shape[-1], dtype=x.dtype, device=x.device), x

								        ], dim=1)  # shape = [*, grid ** 2 + 1, width]

								        x = x + self.positional_embedding.to(x.dtype)

								        x = self.ln_pre(x)


								        x = x.permute(1, 0, 2)  # NLD -> LND

								        x = self.transformer(x)

								        x = x.permute(1, 0, 2)  # LND -> NLD


								        x = self.ln_post(x[:, 0, :])


								        if self.proj is not None:

								            x = x @ self.proj


								        return x


								class CLIP(nn.Module):

								    def __init__(

								            self,

								            embed_dim,

								            image_resolution,

								            vision_layers,

								            vision_width,

								            vision_patch_size,

								            context_length,

								            vocab_size,

								            transformer_width,

								            transformer_heads,

								            transformer_layers,

								            eos_id=3,

								    ):

								        super().__init__()


								        self.eos_id = eos_id

								        self.context_length = context_length


								        vision_heads = vision_width // 64

								        self.visual = VisionTransformer(

								            input_resolution=image_resolution,

								            patch_size=vision_patch_size,

								            width=vision_width,

								            layers=vision_layers,

								            heads=vision_heads,

								            output_dim=embed_dim,

								        )


								        self.transformer = Transformer(

								            width=transformer_width,

								            layers=transformer_layers,

								            heads=transformer_heads,

								            attn_mask=self.build_attention_mask(),

								        )


								        self.vocab_size = vocab_size

								        self.token_embedding = nn.Embedding(vocab_size, transformer_width)

								        self.positional_embedding = nn.Parameter(torch.empty(self.context_length, transformer_width))

								        self.ln_final = LayerNorm(transformer_width)


								        self.text_projection = nn.Parameter(torch.empty(transformer_width, embed_dim))

								        self.logit_scale = nn.Parameter(torch.ones([]) * np.log(1 / 0.07))


								        self.initialize_parameters()


								    def initialize_parameters(self):

								        nn.init.normal_(self.token_embedding.weight, std=0.02)

								        nn.init.normal_(self.positional_embedding, std=0.01)

								        proj_std = (self.transformer.width ** -0.5) * ((2 * self.transformer.layers) ** -0.5)

								        attn_std = self.transformer.width ** -0.5

								        fc_std = (2 * self.transformer.width) ** -0.5

								        for block in self.transformer.resblocks:

								            nn.init.normal_(block.attn.in_proj_weight, std=attn_std)

								            nn.init.normal_(block.attn.out_proj.weight, std=proj_std)

								            nn.init.normal_(block.mlp.c_fc.weight, std=fc_std)

								            nn.init.normal_(block.mlp.c_proj.weight, std=proj_std)


								        if self.text_projection is not None:

								            nn.init.normal_(self.text_projection, std=self.transformer.width ** -0.5)


								    def build_attention_mask(self):

								        mask = torch.empty(self.context_length, self.context_length)

								        mask.fill_(float('-inf'))

								        mask.triu_(1)

								        return mask


								    @property

								    def dtype(self):

								        return self.visual.conv1.weight.dtype


								    def encode_image(self, pixel_values):

								        """Encode images

								        Parameters

								        ----------

								        pixel_values: torch.Tensor

								            Processed images from RuCLIPProcessor class

								        Returns

								        -------

								        image_latents : torch.Tensor

								            Image embeddings

								        """

								        return self.visual(pixel_values.type(self.dtype))


								    def encode_text(self, input_ids):

								        """Encode texts

								        Parameters

								        ----------

								        input_ids: torch.Tensor

								            Tokenized texts from RuCLIPProcessor class

								        Returns

								        -------

								        text_latents : torch.Tensor

								            Text embeddings

								        """

								        x = self.token_embedding(input_ids).type(self.dtype)  # [batch_size, n_ctx, d_model]

								        x = x + self.positional_embedding.type(self.dtype)

								        x = x.permute(1, 0, 2)  # NLD -> LND

								        x = self.transformer(x)

								        x = x.permute(1, 0, 2)  # LND -> NLD

								        x = self.ln_final(x).type(self.dtype)

								        # x.shape = [batch_size, n_ctx, transformer.width]

								        x = x[torch.arange(x.shape[0]), torch.where(input_ids == self.eos_id)[1]] @ self.text_projection

								        return x


								    def forward(self, input_ids, pixel_values):

								        image_features = self.encode_image(pixel_values)

								        text_features = self.encode_text(input_ids)


								        # normalize features

								        image_features = image_features / image_features.norm(dim=-1, keepdim=True)

								        text_features = text_features / text_features.norm(dim=-1, keepdim=True)


								        # cosine similarity as logits

								        logit_scale = self.logit_scale.exp()

								        logits_per_image = logit_scale * image_features @ text_features.t()

								        logits_per_text = logits_per_image.t()


								        return logits_per_image, logits_per_text


								    @classmethod

								    def from_pretrained(cls, folder):

								        """Load model from folder"""

								        config = json.load(open(os.path.join(folder, 'config.json')))

								        model = cls(

								            embed_dim=config['embed_dim'],

								            image_resolution=config['image_resolution'],

								            vision_layers=config['vision_layers'],

								            vision_width=config['vision_width'],

								            vision_patch_size=config['vision_patch_size'],

								            context_length=config['context_length'],

								            vocab_size=config['vocab_size'],

								            transformer_width=config['transformer_width'],

								            transformer_heads=config['transformer_heads'],

								            transformer_layers=config['transformer_layers'],

								        )

								        checkpoint = torch.load(os.path.join(folder, 'pytorch_model.bin'), map_location='cpu')

								        model.load_state_dict(checkpoint)

								        return model