camel/models/transformer/decoders.py

import torch
from torch import nn
import numpy as np

from models.transformer.attention import MultiHeadAttention
from models.transformer.utils import sinusoid_encoding_table, PositionWiseFeedForward
from models.containers import Module, ModuleList
from models.utils import one_hot_to_index


class MeshedDecoderLayer(Module):
    def __init__(self, N_enc, d_model=512, d_k=64, d_v=64, h=8, d_ff=2048, dropout=.1, self_att_module=None,
                 enc_att_module=None, self_att_module_kwargs=None, enc_att_module_kwargs=None):
        super(MeshedDecoderLayer, self).__init__()
        self.N_enc = N_enc
        self.self_att = MultiHeadAttention(d_model, d_k, d_v, h, dropout, can_be_stateful=True,
                                           attention_module=self_att_module,
                                           attention_module_kwargs=self_att_module_kwargs)
        self.enc_att = MultiHeadAttention(d_model, d_k, d_v, h, dropout, can_be_stateful=False,
                                          attention_module=enc_att_module,
                                          attention_module_kwargs=enc_att_module_kwargs)
        self.pwff = PositionWiseFeedForward(d_model, d_ff, dropout)

        self.fc_alpha = ModuleList([nn.Linear(d_model + d_model, d_model) for _ in range(N_enc)])

        self.init_weights()

    def init_weights(self):
        for fc_alpha in self.fc_alpha:
            nn.init.xavier_uniform_(fc_alpha.weight)
            nn.init.constant_(fc_alpha.bias, 0)

    def forward(self, input, enc_output, mask_pad, mask_self_att, mask_enc_att):
        self_att = self.self_att(input, input, input, mask_self_att)
        self_att = self_att * mask_pad

        enc_att = None
        for i in range(self.N_enc):
            enc_att_i = self.enc_att(self_att, enc_output[:, i], enc_output[:, i], mask_enc_att) * mask_pad
            alpha_i = torch.sigmoid(self.fc_alpha[i](torch.cat([self_att, enc_att_i], -1)))
            if enc_att is None:
                enc_att = enc_att_i * alpha_i
            else:
                enc_att += enc_att_i * alpha_i

        enc_att /= np.sqrt(self.N_enc)
        enc_att *= mask_pad

        ff = self.pwff(enc_att)
        ff = ff * mask_pad
        return ff


class DecoderLayer(Module):
    def __init__(self, d_model=512, d_k=64, d_v=64, h=8, d_ff=2048, dropout=.1, self_att_module=None,
                 enc_att_module=None, self_att_module_kwargs=None, enc_att_module_kwargs=None):
        super(DecoderLayer, self).__init__()
        self.self_att = MultiHeadAttention(d_model, d_k, d_v, h, dropout, can_be_stateful=True,
                                           attention_module=self_att_module,
                                           attention_module_kwargs=self_att_module_kwargs)
        self.enc_att = MultiHeadAttention(d_model, d_k, d_v, h, dropout, can_be_stateful=False,
                                          attention_module=enc_att_module,
                                          attention_module_kwargs=enc_att_module_kwargs)
        self.pwff = PositionWiseFeedForward(d_model, d_ff, dropout)

    def forward(self, input, enc_output, mask_pad, mask_self_att, mask_enc_att):
        self_att = self.self_att(input, input, input, mask_self_att)
        enc_att = self.enc_att(self_att, enc_output, enc_output, mask_enc_att)
        ff = self.pwff(enc_att)
        ff = ff * mask_pad
        return ff


class MeshedDecoder(Module):
    def __init__(self, vocab_size, max_len, N_dec, N_enc, padding_idx=0, d_model=512, d_k=64, d_v=64, h=8, d_ff=2048,
                 dropout=.1,
                 self_att_module=None, enc_att_module=None, self_att_module_kwargs=None, enc_att_module_kwargs=None):
        super(MeshedDecoder, self).__init__()
        self.d_model = d_model
        self.vocab_size = vocab_size
        self.word_emb = nn.Embedding(vocab_size, d_model, padding_idx=padding_idx)
        self.pos_emb = nn.Embedding.from_pretrained(sinusoid_encoding_table(max_len + 1, d_model, 0), freeze=True)
        self.layers = ModuleList(
            [MeshedDecoderLayer(N_enc, d_model, d_k, d_v, h, d_ff, dropout, self_att_module=self_att_module,
                                enc_att_module=enc_att_module, self_att_module_kwargs=self_att_module_kwargs,
                                enc_att_module_kwargs=enc_att_module_kwargs) for _ in range(N_dec)])
        self.fc = nn.Linear(d_model, vocab_size, bias=False)
        self.max_len = max_len
        self.padding_idx = padding_idx
        self.N = N_dec

        self.register_state('running_mask_self_attention', None)
        self.register_state('running_seq', torch.zeros((1,)).long())

    def forward(self, input, encoder_output_list, mask_encoder):
        # input (b_s, seq_len)
        input = input[:, :self.max_len]
        b_s, seq_len = input.shape[:2]

        if input.dtype in [torch.long, torch.int]:
            input_index = input
        else:
            input_index = one_hot_to_index(input)

        mask_queries = (input_index != self.padding_idx).unsqueeze(-1).type(input.dtype)  # (b_s, seq_len, 1)
        mask_self_attention = torch.triu(torch.ones((seq_len, seq_len), dtype=torch.bool, device=input.device),
                                         diagonal=1)
        mask_self_attention = mask_self_attention.unsqueeze(0).unsqueeze(0)  # (1, 1, seq_len, seq_len)
        mask_self_attention = mask_self_attention + (input_index == self.padding_idx).unsqueeze(1).unsqueeze(1).bool()
        mask_self_attention = mask_self_attention.gt(0)  # (b_s, 1, seq_len, seq_len)
        if self._is_stateful:
            if self.running_mask_self_attention is None:
                self.running_mask_self_attention = mask_self_attention
            else:
                self.running_mask_self_attention = torch.cat([self.running_mask_self_attention, mask_self_attention],
                                                             -1)
                mask_self_attention = self.running_mask_self_attention

        seq = torch.arange(1, seq_len + 1).view(1, -1).expand(b_s, -1).to(input.device)  # (b_s, seq_len)
        seq = seq.masked_fill(mask_queries.squeeze(-1) == 0, 0)
        if self._is_stateful:
            self.running_seq.add_(1)
            seq = self.running_seq

        if input.dtype in [torch.long, torch.int]:
            out = self.word_emb(input)
        else:
            out = input @ self.word_emb.weight

        out = out + self.pos_emb(seq)
        for i, l in enumerate(self.layers):
            out = l(out, encoder_output_list, mask_queries, mask_self_attention, mask_encoder)

        out = self.fc(out)
        return out


class Decoder(Module):
    def __init__(self, vocab_size, max_len, N_dec, padding_idx=0, d_model=512, d_k=64, d_v=64, h=8, d_ff=2048,
                 dropout=.1, self_att_module=None, enc_att_module=None, self_att_module_kwargs=None,
                 enc_att_module_kwargs=None):
        super(Decoder, self).__init__()
        self.d_model = d_model
        self.vocab_size = vocab_size
        self.word_emb = nn.Embedding(vocab_size, d_model, padding_idx=padding_idx)
        self.pos_emb = nn.Embedding.from_pretrained(sinusoid_encoding_table(max_len + 1, d_model, 0), freeze=True)
        self.layers = ModuleList(
            [DecoderLayer(d_model, d_k, d_v, h, d_ff, dropout, self_att_module=self_att_module,
                          enc_att_module=enc_att_module, self_att_module_kwargs=self_att_module_kwargs,
                          enc_att_module_kwargs=enc_att_module_kwargs) for _ in range(N_dec)])
        self.fc = nn.Linear(d_model, vocab_size, bias=False)
        self.max_len = max_len
        self.padding_idx = padding_idx
        self.N = N_dec

        self.register_state('running_mask_self_attention', None)
        self.register_state('running_seq', torch.zeros((1,)).long())

    def forward(self, input, encoder_output, mask_encoder):
        # input (b_s, seq_len)
        input = input[:, :self.max_len]
        b_s, seq_len = input.shape[:2]

        if input.dtype in [torch.long, torch.int]:
            input_index = input
        else:
            input_index = one_hot_to_index(input)

        mask_queries = (input_index != self.padding_idx).unsqueeze(-1).type(input.dtype)  # (b_s, seq_len, 1)
        mask_self_attention = torch.triu(torch.ones((seq_len, seq_len), dtype=torch.bool, device=input.device),
                                         diagonal=1)
        mask_self_attention = mask_self_attention.unsqueeze(0).unsqueeze(0)  # (1, 1, seq_len, seq_len)
        mask_self_attention = mask_self_attention + (input_index == self.padding_idx).unsqueeze(1).unsqueeze(1).bool()
        mask_self_attention = mask_self_attention.gt(0)  # (b_s, 1, seq_len, seq_len)
        if self._is_stateful:
            if self.running_mask_self_attention is None:
                self.running_mask_self_attention = mask_self_attention
            else:
                self.running_mask_self_attention = torch.cat([self.running_mask_self_attention, mask_self_attention],
                                                             -1)
            mask_self_attention = self.running_mask_self_attention

        seq = torch.arange(1, seq_len + 1).view(1, -1).expand(b_s, -1).to(input.device)  # (b_s, seq_len)
        seq = seq.masked_fill(mask_queries.squeeze(-1) == 0, 0)
        if self._is_stateful:
            self.running_seq.add_(1)
            seq = self.running_seq

        if input.dtype in [torch.long, torch.int]:
            out = self.word_emb(input)
        else:
            out = input @ self.word_emb.weight

        out = out + self.pos_emb(seq)
        for i, l in enumerate(self.layers):
            out = l(out, encoder_output, mask_queries, mask_self_attention, mask_encoder)

        out = self.fc(out)
        return out
init the operator. Signed-off-by: wxywb <xy.wang@zilliz.com> 3 years ago			`import torch`
			`from torch import nn`
			`import numpy as np`

			`from models.transformer.attention import MultiHeadAttention`
			`from models.transformer.utils import sinusoid_encoding_table, PositionWiseFeedForward`
			`from models.containers import Module, ModuleList`
			`from models.utils import one_hot_to_index`


			`class MeshedDecoderLayer(Module):`
			`def __init__(self, N_enc, d_model=512, d_k=64, d_v=64, h=8, d_ff=2048, dropout=.1, self_att_module=None,`
			`enc_att_module=None, self_att_module_kwargs=None, enc_att_module_kwargs=None):`
			`super(MeshedDecoderLayer, self).__init__()`
			`self.N_enc = N_enc`
			`self.self_att = MultiHeadAttention(d_model, d_k, d_v, h, dropout, can_be_stateful=True,`
			`attention_module=self_att_module,`
			`attention_module_kwargs=self_att_module_kwargs)`
			`self.enc_att = MultiHeadAttention(d_model, d_k, d_v, h, dropout, can_be_stateful=False,`
			`attention_module=enc_att_module,`
			`attention_module_kwargs=enc_att_module_kwargs)`
			`self.pwff = PositionWiseFeedForward(d_model, d_ff, dropout)`

			`self.fc_alpha = ModuleList([nn.Linear(d_model + d_model, d_model) for _ in range(N_enc)])`

			`self.init_weights()`

			`def init_weights(self):`
			`for fc_alpha in self.fc_alpha:`
			`nn.init.xavier_uniform_(fc_alpha.weight)`
			`nn.init.constant_(fc_alpha.bias, 0)`

			`def forward(self, input, enc_output, mask_pad, mask_self_att, mask_enc_att):`
			`self_att = self.self_att(input, input, input, mask_self_att)`
			`self_att = self_att * mask_pad`

			`enc_att = None`
			`for i in range(self.N_enc):`
			`enc_att_i = self.enc_att(self_att, enc_output[:, i], enc_output[:, i], mask_enc_att) * mask_pad`
			`alpha_i = torch.sigmoid(self.fc_alpha[i](torch.cat([self_att, enc_att_i], -1)))`
			`if enc_att is None:`
			`enc_att = enc_att_i * alpha_i`
			`else:`
			`enc_att += enc_att_i * alpha_i`

			`enc_att /= np.sqrt(self.N_enc)`
			`enc_att *= mask_pad`

			`ff = self.pwff(enc_att)`
			`ff = ff * mask_pad`
			`return ff`


			`class DecoderLayer(Module):`
			`def __init__(self, d_model=512, d_k=64, d_v=64, h=8, d_ff=2048, dropout=.1, self_att_module=None,`
			`enc_att_module=None, self_att_module_kwargs=None, enc_att_module_kwargs=None):`
			`super(DecoderLayer, self).__init__()`
			`self.self_att = MultiHeadAttention(d_model, d_k, d_v, h, dropout, can_be_stateful=True,`
			`attention_module=self_att_module,`
			`attention_module_kwargs=self_att_module_kwargs)`
			`self.enc_att = MultiHeadAttention(d_model, d_k, d_v, h, dropout, can_be_stateful=False,`
			`attention_module=enc_att_module,`
			`attention_module_kwargs=enc_att_module_kwargs)`
			`self.pwff = PositionWiseFeedForward(d_model, d_ff, dropout)`

			`def forward(self, input, enc_output, mask_pad, mask_self_att, mask_enc_att):`
			`self_att = self.self_att(input, input, input, mask_self_att)`
			`enc_att = self.enc_att(self_att, enc_output, enc_output, mask_enc_att)`
			`ff = self.pwff(enc_att)`
			`ff = ff * mask_pad`
			`return ff`


			`class MeshedDecoder(Module):`
			`def __init__(self, vocab_size, max_len, N_dec, N_enc, padding_idx=0, d_model=512, d_k=64, d_v=64, h=8, d_ff=2048,`
			`dropout=.1,`
			`self_att_module=None, enc_att_module=None, self_att_module_kwargs=None, enc_att_module_kwargs=None):`
			`super(MeshedDecoder, self).__init__()`
			`self.d_model = d_model`
			`self.vocab_size = vocab_size`
			`self.word_emb = nn.Embedding(vocab_size, d_model, padding_idx=padding_idx)`
			`self.pos_emb = nn.Embedding.from_pretrained(sinusoid_encoding_table(max_len + 1, d_model, 0), freeze=True)`
			`self.layers = ModuleList(`
			`[MeshedDecoderLayer(N_enc, d_model, d_k, d_v, h, d_ff, dropout, self_att_module=self_att_module,`
			`enc_att_module=enc_att_module, self_att_module_kwargs=self_att_module_kwargs,`
			`enc_att_module_kwargs=enc_att_module_kwargs) for _ in range(N_dec)])`
			`self.fc = nn.Linear(d_model, vocab_size, bias=False)`
			`self.max_len = max_len`
			`self.padding_idx = padding_idx`
			`self.N = N_dec`

			`self.register_state('running_mask_self_attention', None)`
			`self.register_state('running_seq', torch.zeros((1,)).long())`

			`def forward(self, input, encoder_output_list, mask_encoder):`
			`# input (b_s, seq_len)`
			`input = input[:, :self.max_len]`
			`b_s, seq_len = input.shape[:2]`

			`if input.dtype in [torch.long, torch.int]:`
			`input_index = input`
			`else:`
			`input_index = one_hot_to_index(input)`

			`mask_queries = (input_index != self.padding_idx).unsqueeze(-1).type(input.dtype) # (b_s, seq_len, 1)`
			`mask_self_attention = torch.triu(torch.ones((seq_len, seq_len), dtype=torch.bool, device=input.device),`
			`diagonal=1)`
			`mask_self_attention = mask_self_attention.unsqueeze(0).unsqueeze(0) # (1, 1, seq_len, seq_len)`
			`mask_self_attention = mask_self_attention + (input_index == self.padding_idx).unsqueeze(1).unsqueeze(1).bool()`
			`mask_self_attention = mask_self_attention.gt(0) # (b_s, 1, seq_len, seq_len)`
			`if self._is_stateful:`
			`if self.running_mask_self_attention is None:`
			`self.running_mask_self_attention = mask_self_attention`
			`else:`
			`self.running_mask_self_attention = torch.cat([self.running_mask_self_attention, mask_self_attention],`
			`-1)`
			`mask_self_attention = self.running_mask_self_attention`

			`seq = torch.arange(1, seq_len + 1).view(1, -1).expand(b_s, -1).to(input.device) # (b_s, seq_len)`
			`seq = seq.masked_fill(mask_queries.squeeze(-1) == 0, 0)`
			`if self._is_stateful:`
			`self.running_seq.add_(1)`
			`seq = self.running_seq`

			`if input.dtype in [torch.long, torch.int]:`
			`out = self.word_emb(input)`
			`else:`
			`out = input @ self.word_emb.weight`

			`out = out + self.pos_emb(seq)`
			`for i, l in enumerate(self.layers):`
			`out = l(out, encoder_output_list, mask_queries, mask_self_attention, mask_encoder)`

			`out = self.fc(out)`
			`return out`


			`class Decoder(Module):`
			`def __init__(self, vocab_size, max_len, N_dec, padding_idx=0, d_model=512, d_k=64, d_v=64, h=8, d_ff=2048,`
			`dropout=.1, self_att_module=None, enc_att_module=None, self_att_module_kwargs=None,`
			`enc_att_module_kwargs=None):`
			`super(Decoder, self).__init__()`
			`self.d_model = d_model`
			`self.vocab_size = vocab_size`
			`self.word_emb = nn.Embedding(vocab_size, d_model, padding_idx=padding_idx)`
			`self.pos_emb = nn.Embedding.from_pretrained(sinusoid_encoding_table(max_len + 1, d_model, 0), freeze=True)`
			`self.layers = ModuleList(`
			`[DecoderLayer(d_model, d_k, d_v, h, d_ff, dropout, self_att_module=self_att_module,`
			`enc_att_module=enc_att_module, self_att_module_kwargs=self_att_module_kwargs,`
			`enc_att_module_kwargs=enc_att_module_kwargs) for _ in range(N_dec)])`
			`self.fc = nn.Linear(d_model, vocab_size, bias=False)`
			`self.max_len = max_len`
			`self.padding_idx = padding_idx`
			`self.N = N_dec`

			`self.register_state('running_mask_self_attention', None)`
			`self.register_state('running_seq', torch.zeros((1,)).long())`

			`def forward(self, input, encoder_output, mask_encoder):`
			`# input (b_s, seq_len)`
			`input = input[:, :self.max_len]`
			`b_s, seq_len = input.shape[:2]`

			`if input.dtype in [torch.long, torch.int]:`
			`input_index = input`
			`else:`
			`input_index = one_hot_to_index(input)`

			`mask_queries = (input_index != self.padding_idx).unsqueeze(-1).type(input.dtype) # (b_s, seq_len, 1)`
			`mask_self_attention = torch.triu(torch.ones((seq_len, seq_len), dtype=torch.bool, device=input.device),`
			`diagonal=1)`
			`mask_self_attention = mask_self_attention.unsqueeze(0).unsqueeze(0) # (1, 1, seq_len, seq_len)`
			`mask_self_attention = mask_self_attention + (input_index == self.padding_idx).unsqueeze(1).unsqueeze(1).bool()`
			`mask_self_attention = mask_self_attention.gt(0) # (b_s, 1, seq_len, seq_len)`
			`if self._is_stateful:`
			`if self.running_mask_self_attention is None:`
			`self.running_mask_self_attention = mask_self_attention`
			`else:`
			`self.running_mask_self_attention = torch.cat([self.running_mask_self_attention, mask_self_attention],`
			`-1)`
			`mask_self_attention = self.running_mask_self_attention`

			`seq = torch.arange(1, seq_len + 1).view(1, -1).expand(b_s, -1).to(input.device) # (b_s, seq_len)`
			`seq = seq.masked_fill(mask_queries.squeeze(-1) == 0, 0)`
			`if self._is_stateful:`
			`self.running_seq.add_(1)`
			`seq = self.running_seq`

			`if input.dtype in [torch.long, torch.int]:`
			`out = self.word_emb(input)`
			`else:`
			`out = input @ self.word_emb.weight`

			`out = out + self.pos_emb(seq)`
			`for i, l in enumerate(self.layers):`
			`out = l(out, encoder_output, mask_queries, mask_self_attention, mask_encoder)`

			`out = self.fc(out)`
			`return out`