[RN50/Paddle] Remove export script and add INT8 feature (QAT + inference)

leo0519 · nv-kkudrynski · commit 38934f9f26d7 · 2024-02-20T10:04:43.000-08:00
diff --git a/PaddlePaddle/Classification/RN50v1.5/Dockerfile b/PaddlePaddle/Classification/RN50v1.5/Dockerfile
@@ -1,4 +1,4 @@
-ARG FROM_IMAGE_NAME=nvcr.io/nvidia/paddlepaddle:23.09-py3
+ARG FROM_IMAGE_NAME=nvcr.io/nvidia/paddlepaddle:23.12-py3
 FROM ${FROM_IMAGE_NAME}
 
 ADD requirements.txt /workspace/
diff --git a/PaddlePaddle/Classification/RN50v1.5/README.md b/PaddlePaddle/Classification/RN50v1.5/README.md
diff --git a/PaddlePaddle/Classification/RN50v1.5/export_model.py b/PaddlePaddle/Classification/RN50v1.5/export_model.py
diff --git a/PaddlePaddle/Classification/RN50v1.5/inference.py b/PaddlePaddle/Classification/RN50v1.5/inference.py
@@ -29,7 +29,7 @@
 
 
 def init_predictor(args):
-    infer_dir = args.trt_inference_dir
+    infer_dir = args.inference_dir
     assert os.path.isdir(
         infer_dir), f'inference_dir = "{infer_dir}" is not a directory'
     pdiparams_path = glob.glob(os.path.join(infer_dir, '*.pdiparams'))
@@ -41,7 +41,7 @@ def init_predictor(args):
     predictor_config = Config(pdmodel_path[0], pdiparams_path[0])
     predictor_config.enable_memory_optim()
     predictor_config.enable_use_gpu(0, args.device)
-    precision = args.trt_precision
+    precision = args.precision
     max_batch_size = args.batch_size
     assert precision in ['FP32', 'FP16', 'INT8'], \
         'precision should be FP32/FP16/INT8'
@@ -54,12 +54,17 @@ def init_predictor(args):
     else:
         raise NotImplementedError
     predictor_config.enable_tensorrt_engine(
-        workspace_size=args.trt_workspace_size,
+        workspace_size=args.workspace_size,
         max_batch_size=max_batch_size,
-        min_subgraph_size=args.trt_min_subgraph_size,
+        min_subgraph_size=args.min_subgraph_size,
         precision_mode=precision_mode,
-        use_static=args.trt_use_static,
-        use_calib_mode=args.trt_use_calib_mode)
+        use_static=args.use_static,
+        use_calib_mode=args.use_calib_mode)
+    predictor_config.set_trt_dynamic_shape_info(
+        {"data": (1,) + tuple(args.image_shape)},
+        {"data": (args.batch_size,) + tuple(args.image_shape)},
+        {"data": (args.batch_size,) + tuple(args.image_shape)},
+    )
     predictor = create_predictor(predictor_config)
     return predictor
 
@@ -140,7 +145,7 @@ def benchmark_dataset(args):
     quantile = np.quantile(latency, [0.9, 0.95, 0.99])
 
     statistics = {
-        'precision': args.trt_precision,
+        'precision': args.precision,
         'batch_size': batch_size,
         'throughput': total_images / (end - start),
         'accuracy': correct_predict / total_images,
@@ -189,7 +194,7 @@ def benchmark_synthetic(args):
     quantile = np.quantile(latency, [0.9, 0.95, 0.99])
 
     statistics = {
-        'precision': args.trt_precision,
+        'precision': args.precision,
         'batch_size': batch_size,
         'throughput': args.benchmark_steps * batch_size / (end - start),
         'eval_latency_avg': np.mean(latency),
@@ -200,11 +205,11 @@ def benchmark_synthetic(args):
     return statistics
 
 def main(args):
-    setup_dllogger(args.trt_log_path)
+    setup_dllogger(args.report_file)
     if args.show_config:
         print_args(args)
 
-    if args.trt_use_synthetic:
+    if args.use_synthetic:
         statistics = benchmark_synthetic(args)
     else:
         statistics = benchmark_dataset(args)
@@ -213,4 +218,4 @@ def main(args):
 
 
 if __name__ == '__main__':
-    main(parse_args(including_trt=True))
+    main(parse_args(script='inference'))
diff --git a/PaddlePaddle/Classification/RN50v1.5/program.py b/PaddlePaddle/Classification/RN50v1.5/program.py
@@ -188,6 +188,7 @@ def dist_optimizer(args, optimizer):
         }
 
     dist_strategy.asp = args.asp
+    dist_strategy.qat = args.qat
 
     optimizer = fleet.distributed_optimizer(optimizer, strategy=dist_strategy)
 
diff --git a/PaddlePaddle/Classification/RN50v1.5/scripts/inference/infer_resnet50_AMP.sh b/PaddlePaddle/Classification/RN50v1.5/scripts/inference/infer_resnet50_AMP.sh
@@ -14,9 +14,9 @@
 
 python inference.py \
     --data-layout NHWC \
-    --trt-inference-dir ./inference_amp \
-    --trt-precision FP16 \
+    --inference-dir ./inference_amp \
+    --precision FP16 \
     --batch-size 256 \
     --benchmark-steps 1024 \
     --benchmark-warmup-steps 16 \
-    --trt-use-synthetic True
+    --use-synthetic True
diff --git a/PaddlePaddle/Classification/RN50v1.5/scripts/inference/infer_resnet50_QAT.sh b/PaddlePaddle/Classification/RN50v1.5/scripts/inference/infer_resnet50_QAT.sh
@@ -12,10 +12,11 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-CKPT=${1:-"./output/ResNet50/89"}
-MODEL_PREFIX=${2:-"resnet_50_paddle"}
-
-python -m paddle.distributed.launch --gpus=0 export_model.py \
-    --trt-inference-dir ./inference_tf32 \
-    --from-checkpoint $CKPT \
-    --model-prefix ${MODEL_PREFIX}
+python inference.py \
+    --data-layout NHWC \
+    --inference-dir ./inference_qat \
+    --precision INT8 \
+    --batch-size 256 \
+    --benchmark-steps 1024 \
+    --benchmark-warmup-steps 16 \
+    --use-synthetic True
diff --git a/PaddlePaddle/Classification/RN50v1.5/scripts/inference/infer_resnet50_TF32.sh b/PaddlePaddle/Classification/RN50v1.5/scripts/inference/infer_resnet50_TF32.sh
@@ -13,10 +13,10 @@
 # limitations under the License.
 
 python inference.py \
-    --trt-inference-dir ./inference_tf32 \
-    --trt-precision FP32 \
+    --inference-dir ./inference_tf32 \
+    --precision FP32 \
     --dali-num-threads 8 \
     --batch-size 256 \
     --benchmark-steps 1024 \
     --benchmark-warmup-steps 16 \
-    --trt-use-synthetic True
+    --use-synthetic True
diff --git a/PaddlePaddle/Classification/RN50v1.5/scripts/training/train_resnet50_AMP_90E_DGXA100.sh b/PaddlePaddle/Classification/RN50v1.5/scripts/training/train_resnet50_AMP_90E_DGXA100.sh
@@ -18,4 +18,5 @@ python -m paddle.distributed.launch --gpus=0,1,2,3,4,5,6,7 train.py \
     --scale-loss 128.0 \
     --use-dynamic-loss-scaling \
     --data-layout NHWC \
-    --fuse-resunit
+    --fuse-resunit \
+    --inference-dir ./inference_amp
diff --git a/PaddlePaddle/Classification/RN50v1.5/scripts/training/train_resnet50_AMP_QAT_10E_DGXA100.sh b/PaddlePaddle/Classification/RN50v1.5/scripts/training/train_resnet50_AMP_QAT_10E_DGXA100.sh
@@ -15,9 +15,14 @@
 CKPT=${1:-"./output/ResNet50/89"}
 MODEL_PREFIX=${2:-"resnet_50_paddle"}
 
-python -m paddle.distributed.launch --gpus=0 export_model.py \
-    --amp \
-    --data-layout NHWC \
-    --trt-inference-dir ./inference_amp \
-    --from-checkpoint ${CKPT} \
-    --model-prefix ${MODEL_PREFIX}
+python -m paddle.distributed.launch --gpus=0,1,2,3,4,5,6,7 train.py \
+  --from-pretrained-params ${CKPT} \
+  --model-prefix ${MODEL_PREFIX} \
+  --epochs 10 \
+  --amp \
+  --scale-loss 128.0 \
+  --use-dynamic-loss-scaling \
+  --data-layout NHWC \
+  --qat \
+  --lr 0.00005 \
+  --inference-dir ./inference_qat
diff --git a/PaddlePaddle/Classification/RN50v1.5/scripts/training/train_resnet50_TF32_90E_DGXA100.sh b/PaddlePaddle/Classification/RN50v1.5/scripts/training/train_resnet50_TF32_90E_DGXA100.sh
@@ -12,4 +12,4 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-python -m paddle.distributed.launch --gpus=0,1,2,3,4,5,6,7 train.py --epochs 90
+python -m paddle.distributed.launch --gpus=0,1,2,3,4,5,6,7 train.py --epochs 90 --inference-dir ./inference_tf32
diff --git a/PaddlePaddle/Classification/RN50v1.5/train.py b/PaddlePaddle/Classification/RN50v1.5/train.py
@@ -28,6 +28,7 @@
 from paddle.static.amp.fp16_lists import AutoMixedPrecisionLists
 from paddle.static.amp.fp16_utils import cast_model_to_fp16
 from paddle.incubate import asp as sparsity
+from paddle.static.quantization.quanter import quant_aware
 
 
 class MetricSummary:
@@ -107,7 +108,7 @@ def main(args):
         eval_step_each_epoch = len(eval_dataloader)
         eval_prog = paddle.static.Program()
 
-        eval_fetchs, _, _, _ = program.build(
+        eval_fetchs, _, eval_feeds, _ = program.build(
             args,
             eval_prog,
             startup_prog,
@@ -147,6 +148,14 @@ def main(args):
         sparsity.prune_model(train_prog, mask_algo=args.mask_algo)
         logging.info("Pruning model done.")
 
+    if args.qat:
+        if args.run_scope == RunScope.EVAL_ONLY:
+            eval_prog = quant_aware(eval_prog, device, for_test=True, return_program=True)
+        else:
+            optimizer.qat_init(
+                device,
+                test_program=eval_prog)
+
     if eval_prog is not None:
         eval_prog = program.compile_prog(args, eval_prog, is_train=False)
 
@@ -169,7 +178,7 @@ def main(args):
 
             # Save a checkpoint
             if epoch_id % args.save_interval == 0:
-                model_path = os.path.join(args.output_dir, args.model_arch_name)
+                model_path = os.path.join(args.checkpoint_dir, args.model_arch_name)
                 save_model(train_prog, model_path, epoch_id, args.model_prefix)
 
         # Evaluation
@@ -190,6 +199,10 @@ def main(args):
     if eval_summary.is_updated:
         program.log_info((), eval_summary.metric_dict, Mode.EVAL)
 
+    if eval_prog is not None:
+        model_path = os.path.join(args.inference_dir, args.model_arch_name)
+        paddle.static.save_inference_model(model_path, [eval_feeds['data']], [eval_fetchs['label'][0]], exe, program=eval_prog)
+
 
 if __name__ == '__main__':
     paddle.enable_static()
diff --git a/PaddlePaddle/Classification/RN50v1.5/utils/config.py b/PaddlePaddle/Classification/RN50v1.5/utils/config.py

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-ARG FROM_IMAGE_NAME=nvcr.io/nvidia/paddlepaddle:23.09-py3`
	`1`	`+ARG FROM_IMAGE_NAME=nvcr.io/nvidia/paddlepaddle:23.12-py3`
`2`	`2`	`FROM ${FROM_IMAGE_NAME}`
`3`	`3`
`4`	`4`	`ADD requirements.txt /workspace/`
Original file line number	Diff line number	Diff line change
`@@ -188,6 +188,7 @@ def dist_optimizer(args, optimizer):`
`188`	`188`	`}`
`189`	`189`
`190`	`190`	`dist_strategy.asp = args.asp`
	`191`	`+ dist_strategy.qat = args.qat`
`191`	`192`
`192`	`193`	`optimizer = fleet.distributed_optimizer(optimizer, strategy=dist_strategy)`
`193`	`194`