albef/models/model_pretrain_nlvr.py


								from functools import partial

								from models.vit import VisionTransformer

								from models.xbert import BertConfig, BertModel


								import torch

								from torch import nn

								import torch.nn.functional as F


								class ALBEF(nn.Module):

								    def __init__(self,

								                 text_encoder = None,

								                 tokenizer = None,

								                 config = None,

								                 ):

								        super().__init__()


								        self.tokenizer = tokenizer

								        vision_width = config['vision_width']

								        embed_dim = config['embed_dim']


								        self.visual_encoder = VisionTransformer(

								            img_size=config['image_res'], patch_size=16, embed_dim=768, depth=12, num_heads=12,

								            mlp_ratio=4, qkv_bias=True, norm_layer=partial(nn.LayerNorm, eps=1e-6))


								        bert_config = BertConfig.from_json_file(config['bert_config'])

								        bert_config.num_hidden_layers = 18

								        self.text_encoder = BertModel.from_pretrained(text_encoder, config=bert_config, add_pooling_layer=False)


								        #share the cross-attention layers for two images

								        self.share_cross_attention(self.text_encoder.encoder)


								        text_width = self.text_encoder.config.hidden_size

								        self.vision_proj = nn.Linear(vision_width, embed_dim)

								        self.text_proj = nn.Linear(text_width, embed_dim)

								        self.temp = nn.Parameter(torch.ones([]) * 0.07)

								        self.ta_head = nn.Linear(self.text_encoder.config.hidden_size, 3)


								    def forward(self, image, text):

								        image_embeds = self.visual_encoder(image)

								        image_atts = torch.ones(image_embeds.size()[:-1],dtype=torch.long).to(image.device)

								        with torch.no_grad():

								            image_feat = F.normalize(self.vision_proj(image_embeds[:,0,:]),dim=-1)

								            sim = image_feat @ image_feat.t() / 0.07

								            weights = F.softmax(sim,dim=1)

								            weights.fill_diagonal_(0)


								        image_inputs = [[],[]]

								        labels = []

								        for b in range(image.size(0)):

								            if torch.rand(1)>1/3:

								                idx = torch.multinomial(weights[b], 1).item()

								                if torch.rand(1)>0.5:

								                    image_inputs[0].append(image_embeds[b])

								                    image_inputs[1].append(image_embeds[idx])

								                    labels.append(0)

								                else:

								                    image_inputs[1].append(image_embeds[b])

								                    image_inputs[0].append(image_embeds[idx])

								                    labels.append(1)

								            else:

								                idx = torch.multinomial(weights[b], 2)

								                image_inputs[0].append(image_embeds[idx[0]])

								                image_inputs[1].append(image_embeds[idx[1]])

								                labels.append(2)


								        image_inputs[0] = torch.stack(image_inputs[0],dim=0)

								        image_inputs[1] = torch.stack(image_inputs[1],dim=0)

								        labels = torch.LongTensor(labels).to(image.device)


								        output = self.text_encoder(text.input_ids,

								                                   attention_mask = text.attention_mask,

								                                   encoder_hidden_states = image_inputs,

								                                   encoder_attention_mask = [image_atts,image_atts],

								                                   return_dict = True,

								                                  )


								        pred = self.ta_head(output.last_hidden_state[:,0,:])

								        loss = F.cross_entropy(pred, labels)


								        return loss


								    def share_cross_attention(self, model):


								        for i in range(6):

								            layer_num = 6+i*2

								            modules_0 = model.layer[layer_num].crossattention.self._modules

								            modules_1 = model.layer[layer_num+1].crossattention.self._modules


								            for name in modules_0.keys():

								                if 'key' in name or 'value' in name:

								                    module_0 = modules_0[name]

								                    module_1 = modules_1[name]

								                    if hasattr(module_0, "weight"):

								                        module_0.weight = module_1.weight

								                        if hasattr(module_0, "bias"):

								                            module_0.bias = module_1.bias