distill-and-select/model/selector.py


								import torch

								import torch.nn as nn


								from . import *


								model_urls = {

								    'dns_selector_cg-fg_att': 'https://mever.iti.gr/distill-and-select/models/dns_selector_cg-fg_att.pth',

								    'dns_selector_cg-fg_bin': 'https://mever.iti.gr/distill-and-select/models/dns_selector_cg-fg_bin.pth',

								}


								class MetadataModel(nn.Module):


								    def __init__(self,

								                 input_size,

								                 hidden_size=100,

								                 num_layers=1

								                 ):

								        super(MetadataModel, self).__init__()


								        model = [

								                 nn.Linear(input_size, hidden_size, bias=False),

								                 nn.BatchNorm1d(hidden_size),

								                 nn.ReLU(),

								                 nn.Dropout()

								                ]


								        for _ in range(num_layers):

								            model.extend([nn.Linear(hidden_size, hidden_size, bias=False),

								                          nn.BatchNorm1d(hidden_size),

								                          nn.ReLU(),

								                          nn.Dropout()])


								        model.extend([nn.Linear(hidden_size, 1),

								                      nn.Sigmoid()])

								        self.model = nn.Sequential(*model)

								        self.reset_parameters()


								    def reset_parameters(self):

								        for m in self.model.modules():

								            if isinstance(m, nn.Linear):

								                nn.init.xavier_uniform_(m.weight)


								    def forward(self, x):

								        return self.model(x)


								class SelectorNetwork(nn.Module):


								    def __init__(self,

								                 dims=512,

								                 hidden_size=100,

								                 num_layers=1,

								                 attention=False,

								                 binarization=False,

								                 pretrained=False,

								                 **kwargs

								                 ):

								        super(SelectorNetwork, self).__init__()

								        self.attention = Attention(dims, norm=False)

								        self.visil_head = VideoComperator()

								        self.mlp = MetadataModel(3, hidden_size, num_layers)


								        if pretrained:

								            if not (attention or binarization):

								                raise Exception('No pretrained model provided for the selected settings. '

								                                'Use either \'attention=True\' or \'binarization=True\' to load a pretrained model.')

								            elif attention:

								                self.load_state_dict(

								                    torch.hub.load_state_dict_from_url(

								                        model_urls['dns_selector_cg-fg_att'])['model'])

								            elif binarization:

								                self.load_state_dict(

								                    torch.hub.load_state_dict_from_url(

								                        model_urls['dns_selector_cg-fg_bin'])['model'])


								    def get_network_name(self,):

								        return 'selector_network'


								    def index_video(self, x, mask=None):

								        x, mask = check_dims(x, mask)

								        sim = self.frame_to_frame_similarity(x)


								        sim_mask = None

								        if mask is not None:

								            sim_mask = torch.einsum("bik,bjk->bij", mask.unsqueeze(-1), mask.unsqueeze(-1))

								            sim = sim.masked_fill((1 - sim_mask).bool(), 0.0)


								        sim, sim_mask = self.visil_head(sim, sim_mask)


								        if sim_mask is not None:

								            sim = sim.masked_fill((1 - sim_mask).bool(), 0.0)

								            sim = torch.sum(sim, [1, 2]) / torch.sum(sim_mask, [1, 2])

								        else:

								            sim = torch.mean(sim, [1, 2])


								        return sim.unsqueeze(-1)


								    def frame_to_frame_similarity(self, x):

								        x, a = self.attention(x)

								        sim = torch.einsum("biok,bjpk->biopj", x, x)

								        return torch.mean(sim, [2, 3])


								    def forward(self, x):

								        return self.mlp(x)