Add benchmark with qps test

Signed-off-by: Jael Gu <mengjia.gu@zilliz.com>
3 years ago · 24e4837ac7
4 changed files with 179 additions and 10 deletions
--- a/benchmark/README.md
+++ b/benchmark/README.md
@ -1,10 +1,13 @@
-# Evaluate with Similarity Search
+# Evaluation Method

-## Introduction
+- Model performance (WIP)
+- Pipeline speed

-Build a image classification system based on similarity search across embeddings.
+## Model Performance 

-The core ideas in `run.py`:
+Build an image classification system based on similarity search across embeddings.
+
+The core ideas in `performance.py`:
 1. create a new Milvus collection each time
 2. extract embeddings using a pretrained model with model name specified by `--model`
 3. specify inference method with `--format` in value of `pytorch` or `onnx`
@ -14,9 +17,44 @@ The core ideas in `run.py`:
   2. compare final prediction with ground truth
   3. calculate percent of correct predictions over all queries

-## Example Usage
+### Example Usage
+
+```bash
+# Option 1:
+python performance.py --model MODEL_NAME --format pytorch
+python performance.py --model MODEL_NAME --format onnx
+
+# Option 2:
+chmod +x performance.sh
+./performance.sh
+```
+
+## Pipeline Speed
+
+QPS test of the embedding pipeline including steps below:
+   1. load image from path (pipe.input)
+   2. decode image into arrays (ops.image_decode)
+   3. generate image embedding (preprocess, model inference, post-process)
+
+There are 3 methods with different pipeline speeds:
+- Towhee pipe (regular method)
+- Onnxruntime (model inference using onnx at local)
+- TritonServe with onnx enabled (request as client)
+
+### Example usage
+
+Please note that `qps_test.py` uses:
+- `localhost:8000`: to connect triton client
+- `../towhee/jpeg`: as test image path

 ```bash
-python evaluate.py --model MODEL_NAME --format pytorch
-python evaluate.py --model MODEL_NAME --format onnx
-```
+python qps_test.py --model 'resnet50' --pipe --onnx --triton --num 100 --device cuda:0
+```
+
+**Args:**
+- `--model`: mandatory, string, model name
+- `--pipe`: optional, on/off flag to enable qps test for pipe
+- `--onnx`: optional, on/off flag to enable qps test for onnx
+- `--triton`: optional, on/off flag to enable qps for triton (please make sure that triton client is ready)
+- `--num`: optional, integer, defaults to 100, batch size in each loop (10 loops in total)
+- `--device`: optional, string, defaults to 'cpu'
--- a/benchmark/performance.py
+++ b/benchmark/performance.py
--- a/benchmark/performance.sh
+++ b/benchmark/performance.sh
@ -3,6 +3,6 @@
 for name in beit_base_patch16_224 beit_base_patch16_224_in22k beit_base_patch16_384 beit_large_patch16_224 beit_large_patch16_224_in22k beit_large_patch16_384 beit_large_patch16_512 beitv2_base_patch16_224 beitv2_base_patch16_224_in22k beitv2_large_patch16_224 beitv2_large_patch16_224_in22k cait_m36_384 cait_m48_448 cait_s24_224 cait_xs24_384 convnext_large_in22ft1k convnext_small_384_in22ft1k convnext_tiny_in22k convnext_xlarge_in22ft1k convnext_xlarge_in22k deit3_medium_patch16_224 deit3_small_patch16_384 deit_base_distilled_patch16_384 mixer_b16_224 mixer_b16_224_in21k mixer_b16_224_miil mixer_b16_224_miil_in21k mixer_l16_224 mixer_l16_224_in21k mobilevitv2_175_384_in22ft1k mobilevitv2_200_384_in22ft1k repvgg_b2g4 res2net50_26w_8s resmlp_big_24_distilled_224 seresnextaa101d_32x8d vit_base_patch16_224_in21k vit_base_patch16_384 vit_base_patch8_224 vit_base_patch8_224_in21k vit_giant_patch14_224_clip_laion2b vit_large_patch16_224 vit_large_patch16_224_in21k vit_large_patch16_384 vit_large_patch32_384 vit_large_r50_s32_224 vit_large_r50_s32_384 vit_relpos_base_patch16_clsgap_224 vit_relpos_medium_patch16_224 vit_relpos_small_patch16_224 vit_small_patch32_224 vit_small_patch32_224_in21k vit_small_r26_s32_384 xcit_large_24_p8_224 xcit_large_24_p8_224_dist xcit_large_24_p8_384_dist xcit_nano_12_p16_384_dist xcit_nano_12_p8_224 xcit_nano_12_p8_224_dist xcit_nano_12_p8_384_dist xcit_small_24_p8_224 xcit_tiny_12_p8_224 xcit_tiny_12_p8_384_dist xcit_tiny_24_p8_224 xcit_tiny_24_p8_384_dist
 do
 	echo ***${name}***
-	python run.py --model ${name} --format pytorch
-	python run.py --model ${name} --format onnx
+	python performance.py --model ${name} --format pytorch
+	python performance.py --model ${name} --format onnx
 done
--- a/benchmark/qps_test.py
+++ b/benchmark/qps_test.py
@ -0,0 +1,131 @@
+import towhee
+from towhee.dc2 import pipe, ops
+from towhee import triton_client
+
+import onnxruntime
+import numpy
+import torch
+from statistics import mean
+
+import time
+import argparse
+
+import os
+import re
+import warnings
+import logging
+from transformers import logging as t_logging
+
+os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'
+warnings.filterwarnings("ignore")
+t_logging.set_verbosity_error()
+
+parser = argparse.ArgumentParser()
+parser.add_argument('--model', required=True, type=str)
+parser.add_argument('--pipe', action='store_true')
+parser.add_argument('--triton', action='store_true')
+parser.add_argument('--onnx', action='store_true')
+parser.add_argument('--atol', type=float, default=1e-3)
+parser.add_argument('--num', type=int, default=100)
+parser.add_argument('--device', type=str, default='cpu')
+args = parser.parse_args()
+
+model_name = args.model
+# model_name = 'resnet50'
+# model_name = 'vgg16'
+# model_name = 'deit3_base_patch16_224'
+# model_name = 'deit_tiny_patch16_224'
+# model_name = 'deit_base_distilled_patch16_224'
+# model_name = 'convnext_base'
+# model_name = 'vit_base_patch16_224'
+# model_name = 'tf_efficientnet_b5'
+
+
+p = (
+    pipe.input('url')
+        .map('url', 'img', ops.image_decode.cv2_rgb())
+        .map('img', 'vec', ops.image_embedding.timm(model_name=model_name, device=args.device))
+        .output('vec')
+)
+
+data = '../towhee.jpeg'
+out1 = p(data).get()[0]
+print('Pipe: OK')
+
+if args.num and args.pipe:
+    qps = []
+    for _ in range(10):
+        start = time.time()
+        p.batch([data] * args.num)
+        # for _ in range(args.num):
+        #     p(data)
+        end = time.time()
+        q = args.num / (end - start)
+        qps.append(q)
+    print('Pipe qps:', mean(qps))
+
+if args.triton:
+    client = triton_client.Client(url='localhost:8000')
+    out2 = client(data)[0][0][0]
+    print('Triton: OK')
+
+    if numpy.allclose(out1, out2, atol=args.atol):
+        print('Check accuracy: OK')
+    else:
+        max_diff = numpy.abs(out1 - out2).max()
+        min_diff = numpy.abs(out1 - out2).min()
+        mean_diff = numpy.abs(out1 - out2).mean()
+        print(f'Check accuracy: atol is larger than {args.atol}.')
+        print(f'Maximum absolute difference is {max_diff}.')
+        print(f'Minimum absolute difference is {min_diff}.')
+        print(f'Mean difference is {mean_diff}.')
+
+    if args.num:
+        qps = []
+        for _ in range(10):
+            start = time.time()
+            client.batch([data] * args.num)
+            end = time.time()
+            q = args.num / (end - start)
+            qps.append(q)
+        print('Triton qps:', mean(qps))
+
+if args.onnx:
+    op = ops.image_embedding.timm(model_name=model_name, device='cpu').get_op()
+    decoder = ops.image_decode.cv2_rgb().get_op()
+    # if not os.path.exists('test.onnx'):
+    op.save_model('onnx', 'test.onnx')
+    sess = onnxruntime.InferenceSession('test.onnx',
+                                        providers=['CUDAExecutionProvider'])
+    inputs = decoder(data)
+    inputs = op.convert_img(inputs)
+    inputs = op.tfms(inputs).unsqueeze(0)
+    out3 = sess.run(None, input_feed={'input_0': inputs.cpu().detach().numpy()})[0]
+    op.device = 'cuda' if args.device != 'cpu' else 'cpu'
+    out3 = op.post_proc(torch.from_numpy(out3)).cpu().detach().numpy()
+    print('Onnx: OK')
+    if numpy.allclose(out1, out3, atol=args.atol):
+        print('Check accuracy: OK')
+    else:
+        max_diff = numpy.abs(out1 - out3).max()
+        min_diff = numpy.abs(out1 - out3).min()
+        mean_diff = numpy.abs(out1 - out3).mean()
+        print(f'Check accuracy: atol is larger than {args.atol}.')
+        print(f'Maximum absolute difference is {max_diff}.')
+        print(f'Minimum absolute difference is {min_diff}.')
+        print(f'Mean difference is {mean_diff}.')
+
+    if args.num:
+        qps = []
+        for _ in range(10):
+            start = time.time()
+            for _ in range(args.num):
+                inputs = decoder(data)
+                inputs = op.convert_img(inputs)
+                inputs = op.tfms(inputs).unsqueeze(0)
+                outs = sess.run(None, input_feed={'input_0': inputs.cpu().detach().numpy()})[0]
+                outs = op.post_proc(torch.from_numpy(outs))
+            end = time.time()
+            q = args.num / (end - start)
+            qps.append(q)
+        print('Onnx qps:', mean(qps))