Add evaluation

Signed-off-by: Jael Gu <mengjia.gu@zilliz.com>
3 years ago · 98d84e87f9
3 changed files with 212 additions and 0 deletions
--- a/evaluate/README.md
+++ b/evaluate/README.md
@ -0,0 +1,21 @@
 # Evaluate with Similarity Search
 ## Introduction
 Build a classification system based on similarity search across embeddings.
 The core ideas in `evaluate.py`:
 1. create a new Milvus collection each time
 2. extract embeddings using a pretrained model with model name specified by `--model`
 3. specify inference method with `--format` in value of `pytorch` or `onnx`
 4. insert & search embeddings with Milvus collection without index
 5. measure performance with accuracy at top 1, 5, 10
   1. vote for the prediction from topk search results (most frequent one)
   2. compare final prediction with ground truth
   3. calculate percent of correct predictions over all queries
 ## Example Usage
 ```bash
 python evaluate.py --model MODEL_NAME --format pytorch
 python evaluate.py --model MODEL_NAME --format onnx
 ```
--- a/evaluate/evaluate.py
+++ b/evaluate/evaluate.py
@ -0,0 +1,184 @@
 import os
 import onnxruntime
 import towhee
 from towhee import ops
 from pymilvus import connections, DataType, FieldSchema, Collection, CollectionSchema, utility
 from datasets import load_dataset
 from statistics import mode
 import argparse
 import transformers
 transformers.logging.set_verbosity_error()
 parser = argparse.ArgumentParser()
 parser.add_argument('--model', required=True, type=str)
 parser.add_argument('--dataset', type=str, default='imdb')
 parser.add_argument('--insert_size', type=int, default=1000)
 parser.add_argument('--query_size', type=int, default=100)
 parser.add_argument('--topk', type=int, default=10)
 parser.add_argument('--collection_name', type=str, default=None)
 parser.add_argument('--format', type=str, required=True)
 args = parser.parse_args()
 model_name = args.model
 dataset_name = args.dataset
 insert_size = args.insert_size
 query_size = args.query_size
 topk = args.topk
 collection_name = args.collection_name if args.collection_name else model_name.replace('-', '_').replace('/', '_')
 device = 'cpu'
 host = 'localhost'
 port = '19530'
 index_type = 'FLAT'
 metric_type = 'L2'
 data = load_dataset(dataset_name).shuffle(seed=32)
 assert insert_size <= len(data['train']), 'There is no enough data. Please decrease insert size.'
 assert insert_size <= len(data['test']), 'There is no enough data. Please decrease query size.'
 insert_data = data['train']
 insert_data = insert_data[:insert_size] if insert_size else insert_data
 query_data = data['test']
 query_data = query_data[:query_size] if query_size else query_data
 # Warm up
 print('Warming up...')
 op = ops.text_embedding.transformers(model_name=model_name, device=device).get_op()
 dim = op('This is test.').shape[-1]
 print(f'output dim: {dim}')
 # Prepare Milvus
 print('Connecting milvus ...')
 connections.connect(host=host, port=port)
 def create_milvus(collection_name):
    print('Creating collection ...')
    fields = [
        FieldSchema(name='id', dtype=DataType.INT64, description='embedding id', is_primary=True, auto_id=True),
        FieldSchema(name='embedding', dtype=DataType.FLOAT_VECTOR, description='text embedding', dim=dim),
        FieldSchema(name='label', dtype=DataType.VARCHAR, description='label', max_length=500)
    ]
    schema = CollectionSchema(fields=fields, description=f'text embeddings for {model_name} on {dataset_name}')
    if utility.has_collection(collection_name):
        print(f'drop old collection: {collection_name}')
        collection = Collection(collection_name)
        collection.drop()
    collection = Collection(name=collection_name, schema=schema)
    print(f'A new collection is created: {collection_name}.')
    return collection
 if args.format == 'pytorch':
    collection_name = collection_name + '_pytorch'
    def insert(model_name, collection_name):
        (
            towhee.dc['text', 'label'](zip(insert_data['text'], insert_data['label'])).stream()
                  .runas_op['text', 'text'](lambda s: s[:1024])
                  .text_embedding.transformers['text', 'emb'](model_name=model_name, device=device)
                  .runas_op['emb', 'emb'](lambda x: x[0])
                  .runas_op['label', 'label'](lambda y: str(y))
                  .ann_insert.milvus[('emb', 'label'), 'miluvs_insert'](
                        uri=f'tcp://{host}:{port}/{collection_name}'
                        )
                  .show(3)
        )
        collection = Collection(collection_name)
        return collection.num_entities
    def query(model_name, collection_name):
        benchmark = (
            towhee.dc['text', 'gt'](zip(query_data['text'], query_data['label'])).stream()
                  .runas_op['text', 'text'](lambda s: s[:1024])
                  .text_embedding.transformers['text', 'emb'](model_name=model_name, device=device)
                  .runas_op['emb', 'emb'](lambda x: x[0])
                  .runas_op['gt', 'gt'](lambda y: str(y))
                  .ann_search.milvus['emb', 'milvus_res'](
                        uri=f'tcp://{host}:{port}/{collection_name}',
                        metric_type=metric_type,
                        limit=topk,
                        output_fields=['label']
                        )
                  .runas_op['milvus_res', 'preds'](lambda x: [y.label for y in x]).unstream()
                  .runas_op['preds', 'pred1'](lambda x: mode(x[:1]))
                  .runas_op['preds', 'pred5'](lambda x: mode(x[:5]))
                  .runas_op['preds', 'pred10'](lambda x: mode(x[:10]))
                  .with_metrics(['accuracy'])
                  .evaluate['gt', 'pred1']('pred1')
                  .evaluate['gt', 'pred5']('pred5')
                  .evaluate['gt', 'pred10']('pred10')
                  .report()
        )
        return benchmark
 elif args.format == 'onnx':
    collection_name = collection_name + '_onnx'
    saved_name = model_name.replace('/', '-')
    onnx_path = f'saved/onnx/{saved_name}.onnx'
    if not os.path.exists(onnx_path):
        op.save_model(format='onnx')
    sess = onnxruntime.InferenceSession(onnx_path,
                                        providers=onnxruntime.get_available_providers())
    @towhee.register
    def run_onnx(txt):
        inputs = op.tokenizer(txt, return_tensors='np')
        onnx_inputs = [x.name for x in sess.get_inputs()]
        new_inputs = {}
        for k in onnx_inputs:
            new_inputs[k] = inputs[k]
        outs = sess.run(output_names=['last_hidden_state'], input_feed=dict(new_inputs))
        return outs[0].squeeze(0)
    def insert(model_name, collection_name):
        (
            towhee.dc['text', 'label'](zip(insert_data['text'], insert_data['label'])).stream()
                  .runas_op['text', 'text'](lambda s: s[:1024])
                  .run_onnx['text', 'emb']()
                  .runas_op['emb', 'emb'](lambda x: x[0])
                  .runas_op['label', 'label'](lambda y: str(y))
                  .ann_insert.milvus[('emb', 'label'), 'miluvs_insert'](
                        uri=f'tcp://{host}:{port}/{collection_name}'
                        )
                  .show(3)
        )
        collection = Collection(collection_name)
        return collection.num_entities
    def query(model_name, collection_name):
        benchmark = (
            towhee.dc['text', 'gt'](zip(query_data['text'], query_data['label'])).stream()
                  .runas_op['text', 'text'](lambda s: s[:1024])
                  .run_onnx['text', 'emb']()
                  .runas_op['emb', 'emb'](lambda x: x[0])
                  .runas_op['gt', 'gt'](lambda y: str(y))
                  .ann_search.milvus['emb', 'milvus_res'](
                           uri=f'tcp://{host}:{port}/{collection_name}',
                           metric_type=metric_type,
                           limit=topk,
                           output_fields=['label']
                           )
                  .runas_op['milvus_res', 'preds'](lambda x: [y.label for y in x]).unstream()
                  .runas_op['preds', 'pred1'](lambda x: mode(x[:1]))
                  .runas_op['preds', 'pred5'](lambda x: mode(x[:5]))
                  .runas_op['preds', 'pred10'](lambda x: mode(x[:10]))
                  .with_metrics(['accuracy'])
                  .evaluate['gt', 'pred1']('pred1')
                  .evaluate['gt', 'pred5']('pred5')
                  .evaluate['gt', 'pred10']('pred10')
                  .report()
        )
        return benchmark
 else:
    raise AttributeError('Only support "pytorch" and "onnx" as format.')
 collection = create_milvus(collection_name)
 insert_count = insert(model_name, collection_name)
 print('Total data inserted:', insert_count)
 benchmark = query(model_name, collection_name)
--- a/evaluate/evaluate.sh
+++ b/evaluate/evaluate.sh
@ -0,0 +1,7 @@
 #!/bin/bash
 for name in allenai/led-base-16384 flaubert/flaubert_base_cased flaubert/flaubert_base_uncased flaubert/flaubert_large_cased flaubert/flaubert_small_cased funnel-transformer/intermediate-base funnel-transformer/large-base funnel-transformer/medium-base funnel-transformer/small-base funnel-transformer/xlarge-base google/mobilebert-uncased tau/splinter-base tau/splinter-base-qass tau/splinter-large
 do
 	python evaluate.py --model ${name} --format pytorch
 	python evaluate.py --model ${name} --format onnx
 done