Extend support to BF16 in npu plugin (#26469)

ZoranZomborat · web-flow · commit 11abf3f9d7ec · 2024-09-25T15:26:11.000Z
### Details: Extend BF16 logic in NPU plugin. To what it's worth, functional tests on NPU side are running with these changes, although there are some opens in NPU compiler which cause an accuracy; Until then this PR should be merged to ease up integration on our side. ### Tickets: [ - *ticket-id*](https://jira.devtools.intel.com/browse/EISW-140090)
diff --git a/src/plugins/intel_npu/src/backend/include/zero_device.hpp b/src/plugins/intel_npu/src/backend/include/zero_device.hpp
@@ -69,6 +69,7 @@ class ZeroDevice : public IDevice {
 
     std::map<ov::element::Type, float> device_gops = {{ov::element::f32, 0.f},
                                                       {ov::element::f16, 0.f},
+                                                      {ov::element::bf16, 0.f},
                                                       {ov::element::u8, 0.f},
                                                       {ov::element::i8, 0.f}};
 
diff --git a/src/plugins/intel_npu/src/backend/src/zero_infer_request.cpp b/src/plugins/intel_npu/src/backend/src/zero_infer_request.cpp
@@ -551,6 +551,8 @@ void ZeroInferRequest::check_network_precision(const ov::element::Type_t precisi
         break;
     case ov::element::Type_t::f16:
         break;
+    case ov::element::Type_t::bf16:
+        break;
     case ov::element::Type_t::u4:
         break;
     case ov::element::Type_t::i4:
@@ -575,7 +577,7 @@ void ZeroInferRequest::check_network_precision(const ov::element::Type_t precisi
         break;
     default:
         OPENVINO_THROW("Unsupported tensor precision: " + ov::element::Type(precision).get_type_name() +
-                       "! Supported precisions: FP32, FP16, U4, I4, U8, I8, U16, I16, U32, I32, U64, I64, FP64");
+                       "! Supported precisions: FP32, FP16, BF16, U4, I4, U8, I8, U16, I16, U32, I32, U64, I64, FP64");
     }
 }
 
diff --git a/src/plugins/intel_npu/tests/functional/shared_tests_instances/skip_tests_config.cpp b/src/plugins/intel_npu/tests/functional/shared_tests_instances/skip_tests_config.cpp
@@ -266,7 +266,6 @@ std::vector<std::string> disabledTestPatterns() {
         _skipRegistry.addPatterns(
                 "Tests with unsupported precision", {
                 ".*InferRequestCheckTensorPrecision.*type=boolean.*",
-                ".*InferRequestCheckTensorPrecision.*type=bf16.*",
                 ".*InferRequestCheckTensorPrecision.*type=f64.*",
                 ".*InferRequestCheckTensorPrecision.*type=u1\\D.*",
                 // [Track number: E#97469]
diff --git a/src/plugins/intel_npu/tools/single-image-test/main.cpp b/src/plugins/intel_npu/tools/single-image-test/main.cpp
@@ -287,7 +287,8 @@ std::vector<cv::Mat> ovToCV(const ov::Tensor& tensor, const ov::Shape& shape, co
                     "Unsupported layout: ", layout.to_string());
 
     OPENVINO_ASSERT(precision == ov::element::Type_t::u8 || precision == ov::element::Type_t::f32 ||
-                            precision == ov::element::Type_t::f16 || precision == ov::element::Type_t::i32,
+                            precision == ov::element::Type_t::f16 || precision == ov::element::Type_t::bf16 ||
+                            precision == ov::element::Type_t::i32,
                     "Unsupported precision: ", precision.get_type_name());
 
     int cvType = 0;
@@ -302,6 +303,9 @@ std::vector<cv::Mat> ovToCV(const ov::Tensor& tensor, const ov::Shape& shape, co
     } else if (precision == ov::element::Type_t::f16) {
         cvType = CV_16SC1;
         elemSize = sizeof(ov::float16);
+    } else if (precision == ov::element::Type_t::bf16) {
+        cvType = CV_16SC1;
+        elemSize = sizeof(ov::bfloat16);
     } else if (precision == ov::element::Type_t::i32) {
         cvType = CV_32SC1;
         elemSize = sizeof(int32_t);
@@ -392,11 +396,14 @@ void cvToOV(const cv::Mat& cvImg, const ov::Tensor& tensor, const ov::Shape& sha
         cvType = static_cast<int>(CV_32FC(C));
     } else if (precision == ov::element::Type_t::f16) {
         cvType = static_cast<int>(CV_16SC(C));
+    } else if (precision == ov::element::Type_t::bf16) {
+        cvType = static_cast<int>(CV_16SC(C));
     } else if (precision == ov::element::Type_t::i32) {
         cvType = static_cast<int>(CV_32SC(C));
     } else {
         OPENVINO_ASSERT(precision == ov::element::Type_t::u8 || precision == ov::element::Type_t::f32 ||
-                                precision == ov::element::Type_t::f16 || precision == ov::element::Type_t::i32,
+                                precision == ov::element::Type_t::f16 || precision == ov::element::Type_t::bf16 ||
+                                precision == ov::element::Type_t::i32,
                         "Unsupported precision ", precision.get_type_name());
     }
 
@@ -437,6 +444,10 @@ void cvToOV(const cv::Mat& cvImg, const ov::Tensor& tensor, const ov::Shape& sha
             const auto inPtr = in.ptr<float>();
             const auto outPtr = out.ptr<ov::float16>();
             convertBufferType(outPtr, inPtr, out.size().area() * C);
+        } else if (precision == ov::element::Type_t::bf16) {
+            const auto inPtr = in.ptr<float>();
+            const auto outPtr = out.ptr<ov::bfloat16>();
+            convertBufferType(outPtr, inPtr, out.size().area() * C);
         } else if (precision == ov::element::Type_t::i32) {
             in.convertTo(out, CV_32S);
         } else {
@@ -451,7 +462,8 @@ void cvToOV(const cv::Mat& cvImg, const ov::Tensor& tensor, const ov::Shape& sha
     } else if (layout == ov::Layout("NCHW")) {
         auto tensorPlanes = ovToCV(tensor, shape, layout, 0);
 
-        if (precision != ov::element::Type_t::f16) {
+        if (!(precision == ov::element::Type_t::f16 ||
+            precision == ov::element::Type_t::bf16)) {
             cv::split(in, tensorPlanes);
         } else {
             std::vector<cv::Mat> inPlanes;
@@ -461,8 +473,13 @@ void cvToOV(const cv::Mat& cvImg, const ov::Tensor& tensor, const ov::Shape& sha
 
             for (size_t i = 0; i < tensorPlanes.size(); ++i) {
                 const auto inPtr = inPlanes[i].ptr<float>();
-                const auto outPtr = tensorPlanes[i].ptr<ov::float16>();
-                convertBufferType(outPtr, inPtr, inPlanes[i].size().area());
+                if (precision == ov::element::Type_t::f16) {
+                    const auto outPtr = tensorPlanes[i].ptr<ov::float16>();
+                    convertBufferType(outPtr, inPtr, inPlanes[i].size().area());
+                } else if (precision == ov::element::Type_t::bf16) {
+                    const auto outPtr = tensorPlanes[i].ptr<ov::bfloat16>();
+                    convertBufferType(outPtr, inPtr, inPlanes[i].size().area());
+                }
             }
         }
 
@@ -1761,6 +1778,8 @@ static int runSingleImageTest() {
                         inputBinPrecisionForOneInfer[inferIdx][precisionIdx] = ov::element::f32;
                     } else if (strEq(precision, "FP16")) {
                         inputBinPrecisionForOneInfer[inferIdx][precisionIdx] = ov::element::f16;
+                    } else if (strEq(precision, "BF16")) {
+                        inputBinPrecisionForOneInfer[inferIdx][precisionIdx] = ov::element::bf16;
                     } else if (strEq(precision, "I32")) {
                         inputBinPrecisionForOneInfer[inferIdx][precisionIdx] = ov::element::i32;
                     } else if (strEq(precision, "I64")) {
@@ -1808,6 +1827,8 @@ static int runSingleImageTest() {
                 ov::element::Type prc_in = ov::element::u8;
                 if (FLAGS_ip == "FP16")
                     prc_in = ov::element::f16;
+                else if (FLAGS_ip == "BF16")
+                    prc_in = ov::element::bf16;
                 else if (FLAGS_ip == "FP32")
                     prc_in = ov::element::f32;
                 else if (FLAGS_ip == "I32")