clipcap/main.py

import clip
import torch
import skimage.io as io
import PIL.Image
import numpy as np
import torch.nn.functional as nnf
from transformers import GPT2Tokenizer, GPT2LMHeadModel, AdamW, get_linear_schedule_with_warmup
from tqdm import tqdm, trange
from clipcap_model import MLP, ClipCaptionModel, ClipCaptionPrefix

is_gpu = False
device = CUDA(0) if is_gpu else "cpu"
clip_model, preprocess = clip.load("ViT-B/32", device=device, jit=False)
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
CPU = torch.device('cpu')


def generate2(
        model,
        tokenizer,
        tokens=None,
        prompt=None,
        embed=None,
        entry_count=1,
        entry_length=67,  # maximum number of words
        top_p=0.8,
        temperature=1.,
        stop_token: str = '.',
):
    model.eval()
    generated_num = 0
    generated_list = []
    stop_token_index = tokenizer.encode(stop_token)[0]
    filter_value = -float("Inf")
    device = next(model.parameters()).device

    with torch.no_grad():

        for entry_idx in trange(entry_count):
            if embed is not None:
                generated = embed
            else:
                if tokens is None:
                    tokens = torch.tensor(tokenizer.encode(prompt))
                    tokens = tokens.unsqueeze(0).to(device)

                generated = model.gpt.transformer.wte(tokens)

            for i in range(entry_length):

                outputs = model.gpt(inputs_embeds=generated)
                logits = outputs.logits
                logits = logits[:, -1, :] / (temperature if temperature > 0 else 1.0)
                sorted_logits, sorted_indices = torch.sort(logits, descending=True)
                cumulative_probs = torch.cumsum(nnf.softmax(sorted_logits, dim=-1), dim=-1)
                sorted_indices_to_remove = cumulative_probs > top_p
                sorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[ ..., :-1].clone()
                sorted_indices_to_remove[..., 0] = 0

                indices_to_remove = sorted_indices[sorted_indices_to_remove]
                logits[:, indices_to_remove] = filter_value
                next_token = torch.argmax(logits, -1).unsqueeze(0)
                next_token_embed = model.gpt.transformer.wte(next_token)
                if tokens is None:
                    tokens = next_token
                else:
                    tokens = torch.cat((tokens, next_token), dim=1)
                generated = torch.cat((generated, next_token_embed), dim=1)
                if stop_token_index == next_token.item():
                    break

            output_list = list(tokens.squeeze().cpu().numpy())
            output_text = tokenizer.decode(output_list)
            generated_list.append(output_text)

    return generated_list[0]

def generate_beam(model, tokenizer, beam_size: int = 5, prompt=None, embed=None,
                  entry_length=67, temperature=1., stop_token: str = '.'):

    model.eval()
    stop_token_index = tokenizer.encode(stop_token)[0]
    tokens = None
    scores = None
    device = next(model.parameters()).device
    seq_lengths = torch.ones(beam_size, device=device)
    is_stopped = torch.zeros(beam_size, device=device, dtype=torch.bool)
    with torch.no_grad():
        if embed is not None:
            generated = embed
        else:
            if tokens is None:
                tokens = torch.tensor(tokenizer.encode(prompt))
                tokens = tokens.unsqueeze(0).to(device)
                generated = model.gpt.transformer.wte(tokens)
        for i in range(entry_length):
            outputs = model.gpt(inputs_embeds=generated)
            logits = outputs.logits
            logits = logits[:, -1, :] / (temperature if temperature > 0 else 1.0)
            logits = logits.softmax(-1).log()
            if scores is None:
                scores, next_tokens = logits.topk(beam_size, -1)
                generated = generated.expand(beam_size, *generated.shape[1:])
                next_tokens, scores = next_tokens.permute(1, 0), scores.squeeze(0)
                if tokens is None:
                    tokens = next_tokens
                else:
                    tokens = tokens.expand(beam_size, *tokens.shape[1:])
                    tokens = torch.cat((tokens, next_tokens), dim=1)
            else:
                logits[is_stopped] = -float(np.inf)
                logits[is_stopped, 0] = 0
                scores_sum = scores[:, None] + logits
                seq_lengths[~is_stopped] += 1
                scores_sum_average = scores_sum / seq_lengths[:, None]
                scores_sum_average, next_tokens = scores_sum_average.view(-1).topk(beam_size, -1)
                next_tokens_source = next_tokens // scores_sum.shape[1]
                seq_lengths = seq_lengths[next_tokens_source]
                next_tokens = next_tokens % scores_sum.shape[1]
                next_tokens = next_tokens.unsqueeze(1)
                tokens = tokens[next_tokens_source]
                tokens = torch.cat((tokens, next_tokens), dim=1)
                generated = generated[next_tokens_source]
                scores = scores_sum_average * seq_lengths
                is_stopped = is_stopped[next_tokens_source]
            next_token_embed = model.gpt.transformer.wte(next_tokens.squeeze()).view(generated.shape[0], 1, -1)
            generated = torch.cat((generated, next_token_embed), dim=1)
            is_stopped = is_stopped + next_tokens.eq(stop_token_index).squeeze()
            if is_stopped.all():
                break
    scores = scores / seq_lengths
    output_list = tokens.cpu().numpy()
    output_texts = [tokenizer.decode(output[:int(length)]) for output, length in zip(output_list, seq_lengths)]
    order = scores.argsort(descending=True)
    output_texts = [output_texts[i] for i in order]
    return output_texts

prefix_length = 10

model = ClipCaptionModel(prefix_length)
model_path =  '/Users/zilliz/git/image_captioning/git/clipcap/weights/coco_weights.pt'
model.load_state_dict(torch.load(model_path, map_location=CPU))
model = model.eval()

use_beam_search = False #@param {type:"boolean"}  
use_beam_search = True #@param {type:"boolean"}  

UPLOADED_FILE = 'einstein.jpg'
image = io.imread(UPLOADED_FILE)
pil_image = PIL.Image.fromarray(image)

image = preprocess(pil_image).unsqueeze(0).to(device)
with torch.no_grad():
    # if type(model) is ClipCaptionE2E:
    #     prefix_embed = model.forward_image(image)
    # else:
    prefix = clip_model.encode_image(image).to(device, dtype=torch.float32)
    prefix_embed = model.clip_project(prefix).reshape(1, prefix_length, -1)
if use_beam_search:
    generated_text_prefix = generate_beam(model, tokenizer, embed=prefix_embed)[0]
else:
    generated_text_prefix = generate2(model, tokenizer, embed=prefix_embed)

print(generated_text_prefix)
init the operator. Signed-off-by: wxywb <xy.wang@zilliz.com> 2 years ago			`import clip`
			`import torch`
			`import skimage.io as io`
			`import PIL.Image`
			`import numpy as np`
			`import torch.nn.functional as nnf`
			`from transformers import GPT2Tokenizer, GPT2LMHeadModel, AdamW, get_linear_schedule_with_warmup`
			`from tqdm import tqdm, trange`
			`from clipcap_model import MLP, ClipCaptionModel, ClipCaptionPrefix`

			`is_gpu = False`
			`device = CUDA(0) if is_gpu else "cpu"`
			`clip_model, preprocess = clip.load("ViT-B/32", device=device, jit=False)`
			`tokenizer = GPT2Tokenizer.from_pretrained("gpt2")`
			`CPU = torch.device('cpu')`


			`def generate2(`
			`model,`
			`tokenizer,`
			`tokens=None,`
			`prompt=None,`
			`embed=None,`
			`entry_count=1,`
			`entry_length=67, # maximum number of words`
			`top_p=0.8,`
			`temperature=1.,`
			`stop_token: str = '.',`
			`):`
			`model.eval()`
			`generated_num = 0`
			`generated_list = []`
			`stop_token_index = tokenizer.encode(stop_token)[0]`
			`filter_value = -float("Inf")`
			`device = next(model.parameters()).device`

			`with torch.no_grad():`

			`for entry_idx in trange(entry_count):`
			`if embed is not None:`
			`generated = embed`
			`else:`
			`if tokens is None:`
			`tokens = torch.tensor(tokenizer.encode(prompt))`
			`tokens = tokens.unsqueeze(0).to(device)`

			`generated = model.gpt.transformer.wte(tokens)`

			`for i in range(entry_length):`

			`outputs = model.gpt(inputs_embeds=generated)`
			`logits = outputs.logits`
			`logits = logits[:, -1, :] / (temperature if temperature > 0 else 1.0)`
			`sorted_logits, sorted_indices = torch.sort(logits, descending=True)`
			`cumulative_probs = torch.cumsum(nnf.softmax(sorted_logits, dim=-1), dim=-1)`
			`sorted_indices_to_remove = cumulative_probs > top_p`
			`sorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[ ..., :-1].clone()`
			`sorted_indices_to_remove[..., 0] = 0`

			`indices_to_remove = sorted_indices[sorted_indices_to_remove]`
			`logits[:, indices_to_remove] = filter_value`
			`next_token = torch.argmax(logits, -1).unsqueeze(0)`
			`next_token_embed = model.gpt.transformer.wte(next_token)`
			`if tokens is None:`
			`tokens = next_token`
			`else:`
			`tokens = torch.cat((tokens, next_token), dim=1)`
			`generated = torch.cat((generated, next_token_embed), dim=1)`
			`if stop_token_index == next_token.item():`
			`break`

			`output_list = list(tokens.squeeze().cpu().numpy())`
			`output_text = tokenizer.decode(output_list)`
			`generated_list.append(output_text)`

			`return generated_list[0]`

			`def generate_beam(model, tokenizer, beam_size: int = 5, prompt=None, embed=None,`
			`entry_length=67, temperature=1., stop_token: str = '.'):`

			`model.eval()`
			`stop_token_index = tokenizer.encode(stop_token)[0]`
			`tokens = None`
			`scores = None`
			`device = next(model.parameters()).device`
			`seq_lengths = torch.ones(beam_size, device=device)`
			`is_stopped = torch.zeros(beam_size, device=device, dtype=torch.bool)`
			`with torch.no_grad():`
			`if embed is not None:`
			`generated = embed`
			`else:`
			`if tokens is None:`
			`tokens = torch.tensor(tokenizer.encode(prompt))`
			`tokens = tokens.unsqueeze(0).to(device)`
			`generated = model.gpt.transformer.wte(tokens)`
			`for i in range(entry_length):`
			`outputs = model.gpt(inputs_embeds=generated)`
			`logits = outputs.logits`
			`logits = logits[:, -1, :] / (temperature if temperature > 0 else 1.0)`
			`logits = logits.softmax(-1).log()`
			`if scores is None:`
			`scores, next_tokens = logits.topk(beam_size, -1)`
			`generated = generated.expand(beam_size, *generated.shape[1:])`
			`next_tokens, scores = next_tokens.permute(1, 0), scores.squeeze(0)`
			`if tokens is None:`
			`tokens = next_tokens`
			`else:`
			`tokens = tokens.expand(beam_size, *tokens.shape[1:])`
			`tokens = torch.cat((tokens, next_tokens), dim=1)`
			`else:`
			`logits[is_stopped] = -float(np.inf)`
			`logits[is_stopped, 0] = 0`
			`scores_sum = scores[:, None] + logits`
			`seq_lengths[~is_stopped] += 1`
			`scores_sum_average = scores_sum / seq_lengths[:, None]`
			`scores_sum_average, next_tokens = scores_sum_average.view(-1).topk(beam_size, -1)`
			`next_tokens_source = next_tokens // scores_sum.shape[1]`
			`seq_lengths = seq_lengths[next_tokens_source]`
			`next_tokens = next_tokens % scores_sum.shape[1]`
			`next_tokens = next_tokens.unsqueeze(1)`
			`tokens = tokens[next_tokens_source]`
			`tokens = torch.cat((tokens, next_tokens), dim=1)`
			`generated = generated[next_tokens_source]`
			`scores = scores_sum_average * seq_lengths`
			`is_stopped = is_stopped[next_tokens_source]`
			`next_token_embed = model.gpt.transformer.wte(next_tokens.squeeze()).view(generated.shape[0], 1, -1)`
			`generated = torch.cat((generated, next_token_embed), dim=1)`
			`is_stopped = is_stopped + next_tokens.eq(stop_token_index).squeeze()`
			`if is_stopped.all():`
			`break`
			`scores = scores / seq_lengths`
			`output_list = tokens.cpu().numpy()`
			`output_texts = [tokenizer.decode(output[:int(length)]) for output, length in zip(output_list, seq_lengths)]`
			`order = scores.argsort(descending=True)`
			`output_texts = [output_texts[i] for i in order]`
			`return output_texts`

			`prefix_length = 10`

			`model = ClipCaptionModel(prefix_length)`
			`model_path = '/Users/zilliz/git/image_captioning/git/clipcap/weights/coco_weights.pt'`
			`model.load_state_dict(torch.load(model_path, map_location=CPU))`
			`model = model.eval()`

			`use_beam_search = False #@param {type:"boolean"}`
			`use_beam_search = True #@param {type:"boolean"}`

			`UPLOADED_FILE = 'einstein.jpg'`
			`image = io.imread(UPLOADED_FILE)`
			`pil_image = PIL.Image.fromarray(image)`

			`image = preprocess(pil_image).unsqueeze(0).to(device)`
			`with torch.no_grad():`
			`# if type(model) is ClipCaptionE2E:`
			`# prefix_embed = model.forward_image(image)`
			`# else:`
			`prefix = clip_model.encode_image(image).to(device, dtype=torch.float32)`
			`prefix_embed = model.clip_project(prefix).reshape(1, prefix_length, -1)`
			`if use_beam_search:`
			`generated_text_prefix = generate_beam(model, tokenizer, embed=prefix_embed)[0]`
			`else:`
			`generated_text_prefix = generate2(model, tokenizer, embed=prefix_embed)`

			`print(generated_text_prefix)`