[CPU] Support 4D matmul to FullyConnected conversion (#21491)

mangguo321 · web-flow · commit b821dcc785e8 · 2023-12-28T16:38:11.000+04:00
diff --git a/src/plugins/intel_cpu/src/nodes/fullyconnected.cpp b/src/plugins/intel_cpu/src/nodes/fullyconnected.cpp
@@ -108,15 +108,9 @@ bool FullyConnected::isSupportedOperation(const std::shared_ptr<const ov::Node>&
             errorMessage = "Only Constant operation on 'bias' input is supported";
             return false;
         }
-        const auto inRank = fc->get_input_partial_shape(DATA_ID).size();
         const auto weightRank = fc->get_input_partial_shape(WEIGHTS_ID).size();
-        if (!one_of(inRank, 2u, 3u, 4u)) {
-            errorMessage = "Doesn't support 'data' input with rank: " + std::to_string(inRank);
-            return false;
-        }
-        if ((one_of(inRank, 2u, 3u) && weightRank != 2) || (inRank == 4 && weightRank != 4)) {
-            errorMessage = "Doesn't support 'data' input with rank: " + std::to_string(inRank) +
-                           " and 'weight' input with rank: " + std::to_string(weightRank);
+        if (weightRank != 2) {
+            errorMessage = "Doesn't support 'weight' input with rank: " + std::to_string(weightRank);
             return false;
         }
     } catch (...) {
@@ -160,16 +154,9 @@ VectorDims FullyConnected::makeDummyInputDims() const {
 
     auto inMinDims = inShape.getMinDims();
     auto inMaxDims = inShape.getMaxDims();
+    inMinDims.back() = weightDims.back();
+    inMaxDims.back() = weightDims.back();
 
-    if (inMinDims.size() == 3) {
-        inMinDims.back() = weightDims.back();
-        inMaxDims.back() = weightDims.back();
-    } else {
-        for (size_t i = 1; i < inMinDims.size(); i++) {
-            inMinDims[i] = weightDims[i];
-            inMaxDims[i] = weightDims[i];
-        }
-    }
     return MemoryDescUtils::makeDummyShape(Shape(inMinDims, inMaxDims)).getStaticDims();
 }
 
@@ -394,6 +381,11 @@ createDescriptorInternalForConv(DnnlMemoryDescCPtr inputDescPtr,
     }
 }
 
+template <typename T>
+static std::vector<T> normalizeDims(const std::vector<T>& dims) {
+    return {std::accumulate(dims.begin(), dims.end() - 1, (T)1, std::multiplies<T>()), dims[dims.size() - 1]};
+}
+
 static dnnl::primitive_desc createPrimitiveDesc(const FCKey& key, const dnnl::engine& engine) {
     // use conv1x1 primitive for computation
     if (key.useConv1x1) {
@@ -407,17 +399,18 @@ static dnnl::primitive_desc createPrimitiveDesc(const FCKey& key, const dnnl::en
     // fallback to normal inner product primitive
     auto inDesc = key.inp0->getDnnlDesc();
     const auto& inDims = inDesc.get_dims(); // @TODO query + copy might be slow
-    if (inDims.size() == 3) {
-        auto normalizedInDims = {inDims[0] * inDims[1], inDims[2]};
+    if (inDims.size() > 2) {
+        dnnl::memory::dims normalizedInDims = normalizeDims(inDims);
         inDesc = inDesc.reshape(normalizedInDims);
     }
+
     auto outDesc = key.out->getDnnlDesc();
     const auto& outDims = outDesc.get_dims(); // @TODO query + copy might be slow
-
-    if (outDims.size() == 3) {
-        auto normalizedOutDims = { outDims[0] * outDims[1], outDims[2] };
+    if (outDims.size() > 2) {
+        dnnl::memory::dims normalizedOutDims = normalizeDims(outDims);
         outDesc = outDesc.reshape(normalizedOutDims);
     }
+
     dnnl::memory::desc weiDesc;
     if (key.useSparseWeights) {
         weiDesc = key.inp1->getDnnlDesc();
@@ -673,10 +666,10 @@ void FullyConnected::execute(dnnl::stream strm) {
     auto updateMemoryPtr = [this](int argType) {
         auto param = primArgs.find(argType);
         if (param != primArgs.end()) {
-            if (argType == DNNL_ARG_SRC && (getInputShapeAtPort(DATA_ID).getRank() == 3 || useConv1x1)) {
+            if (argType == DNNL_ARG_SRC && (getInputShapeAtPort(DATA_ID).getRank() > 2 || useConv1x1)) {
                 primArgs.at(argType).set_data_handle(getParentEdgesAtPort(0)[0]->getMemoryPtr()->getData());
             }
-            if (argType == DNNL_ARG_DST && (getOutputShapeAtPort(0).getRank() == 3 || useConv1x1)) {
+            if (argType == DNNL_ARG_DST && (getOutputShapeAtPort(0).getRank() > 2 || useConv1x1)) {
                 primArgs.at(argType).set_data_handle(getChildEdgesAtPort(0)[0]->getMemoryPtr()->getData());
             }
         }
@@ -708,17 +701,7 @@ void FullyConnected::setPostOps(dnnl::primitive_attr& attr, const VectorDims& di
     //    2D:   [X,Y] [Y,Z] =>   [X,Z]   with    N=X,IC=Y,OC=Z
     //    3D: [B,X,Y] [Y,Z] => [B,X,Z]   with  N=B*X,IC=Y,OC=Z
 
-    VectorDims dims;
-    if (dims_ext.size() == 2) {
-        // 2D
-        dims = dims_ext;
-    } else if (dims_ext.size() == 3) {
-        // 3D
-        dims.push_back(dims_ext[0] * dims_ext[1]);
-        dims.push_back(dims_ext[2]);
-    } else {
-        OPENVINO_THROW("Unexpected rank(", dims_ext.size(), ") for output tensor of node: ", getName());
-    }
+    VectorDims dims = normalizeDims(dims_ext);
 
     DnnlPostOpsComposer dnnlpoc(getEngine(), attr, ops, postOpsArgs, dims, dims.size() - 1, canBeExecutedInInt8(),
                                     1 << 0,  getDQScales(), withBiases);
@@ -802,11 +785,11 @@ const std::vector<impl_desc_type>& FullyConnected::getDefaultImplPriority() {
 void FullyConnected::createDescriptorInternal(const dnnl::memory::desc &inputDesc,
                                               const dnnl::memory::desc &outputDesc) {
     auto create2Dcandidate = [](const dnnl::memory::desc &desc) {
-        if (desc.get_dims().size() != 3) // already 2D
+        if (desc.get_dims().size() == 2) // already 2D
             return desc;
 
         auto inDims = desc.get_dims();
-        auto normalizedInDims = {inDims[0] * inDims[1], inDims[2]};
+        dnnl::memory::dims normalizedInDims = normalizeDims(inDims);
 
         return dnnl::memory::desc(normalizedInDims, desc.get_data_type(),
                                   DnnlExtensionUtils::GetPlainFormatByRank(normalizedInDims.size()));
@@ -967,7 +950,7 @@ void FullyConnected::initSupportedPrimitiveDescriptors() {
 std::shared_ptr<MemoryDesc> FullyConnected::getSrcMemDesc(const dnnl::primitive_desc &prim_desc, size_t idx) const {
     auto desc = idx > 0 ? prim_desc.weights_desc(idx - 1) : prim_desc.src_desc(idx);
 
-    if (getInputShapeAtPort(idx).getRank() == 3
+    if (getInputShapeAtPort(idx).getRank() != 2
         // report original plain layout for weight since it needs to be reordered dynamically at runtime
         || (idx == 1 && !useSparseWeights)) {
         return std::make_shared<CpuBlockedMemoryDesc>(
@@ -984,7 +967,7 @@ std::shared_ptr<MemoryDesc> FullyConnected::getSrcMemDesc(const dnnl::primitive_
 std::shared_ptr<MemoryDesc> FullyConnected::getDstMemDesc(const dnnl::primitive_desc &prim_desc, size_t idx) const {
     auto desc = prim_desc.dst_desc(idx);
 
-    if (getOutputShapeAtPort(idx).getRank() == 3) {
+    if (getOutputShapeAtPort(idx).getRank() != 2) {
         return std::make_shared<CpuBlockedMemoryDesc>(
             DnnlExtensionUtils::DataTypeToElementType(desc.get_data_type()), getOutputShapeAtPort(idx));
     }
diff --git a/src/plugins/intel_cpu/src/transformations/cpu_opset/common/pass/convert_matmul_to_fc.cpp b/src/plugins/intel_cpu/src/transformations/cpu_opset/common/pass/convert_matmul_to_fc.cpp
@@ -53,8 +53,7 @@ ov::intel_cpu::ConvertMatMulToFC::ConvertMatMulToFC() {
         auto rank_b = shape_b.rank().get_length();
 
         // Transformation to FC is not supported for 1D inputs
-        if (rank_a == 1 || rank_b == 1 ||
-            rank_a > 3 || rank_b > 3) {
+        if (rank_a == 1 || rank_b == 1) {
             return false;
         }
 
diff --git a/src/plugins/intel_cpu/src/transformations/cpu_opset/common/pass/reshape_fc_fusion.cpp b/src/plugins/intel_cpu/src/transformations/cpu_opset/common/pass/reshape_fc_fusion.cpp
diff --git a/src/plugins/intel_cpu/src/transformations/cpu_opset/common/pass/reshape_fc_fusion.hpp b/src/plugins/intel_cpu/src/transformations/cpu_opset/common/pass/reshape_fc_fusion.hpp
diff --git a/src/plugins/intel_cpu/src/transformations/cpu_opset/convert_to_cpu_specific_opset.hpp b/src/plugins/intel_cpu/src/transformations/cpu_opset/convert_to_cpu_specific_opset.hpp
@@ -5,7 +5,6 @@
 #include "openvino/pass/constant_folding.hpp"
 #include "openvino/op/fake_quantize.hpp"
 #include "openvino/pass/manager.hpp"
-#include "common/pass/reshape_fc_fusion.hpp"
 #include "common/pass/align_matmul_input_ranks.hpp"
 #include "transformations/common_optimizations/reshape_prelu.hpp"
 #include "common/pass/convert_broadcast_to_tiles.hpp"
@@ -42,9 +41,6 @@ inline void ConvertToCPUSpecificOpset(std::shared_ptr<ov::Model> &nGraphFunc) {
     CPU_REGISTER_PASS_COMMON(manager, ConvertToLeakyRelu);
     CPU_REGISTER_PASS_COMMON(manager, ConvertToSwishCPU);
     CPU_REGISTER_PASS_COMMON(manager, OptimizeSequenceTransposes);
-    if (!ov::op::util::has_op_with_type<ov::op::v0::FakeQuantize>(nGraphFunc)) {
-        CPU_REGISTER_PASS_COMMON(manager, ReshapeFullyConnectedFusion);
-    }
     // after transformation "MoveEltwiseUpThroughDataMov" there can be reshaped sequences that should be eliminated or fused
     CPU_REGISTER_PASS_COMMON(manager, ov::pass::ReshapeSequenceFusion);
     CPU_REGISTER_PASS_COMMON(manager, ov::pass::ConstantFolding);
diff --git a/src/plugins/intel_cpu/tests/functional/shared_tests_instances/low_precision_transformations/mat_mul_with_constant_transformation.cpp b/src/plugins/intel_cpu/tests/functional/shared_tests_instances/low_precision_transformations/mat_mul_with_constant_transformation.cpp
@@ -51,7 +51,7 @@ std::vector<MatMulWithConstantTransformationTestValues> testValues = {
         { std::vector<float>(4 * 2, 2.f), ngraph::element::f32, ngraph::Shape{ 2, 4 } },
         { 256ul, {{1}, {1}, {2, 1}, {2, 1}}, {-128.f}, {127.f}, {-128.f, -12.8f}, {127.f, 12.7f} },
         { {}, {}, {} },
-        "MatMul",
+        "FullyConnected",
         "u8"
     },
     // 4D with Dq on weights
@@ -61,7 +61,7 @@ std::vector<MatMulWithConstantTransformationTestValues> testValues = {
         { std::vector<float>(4 * 2, 2.f), ngraph::element::i8, ngraph::Shape{ 2, 4 } },
         {},
         { ngraph::element::f32, {}, {{0.1f, 0.01f}, ngraph::element::f32, ngraph::Shape{ 2, 1 }} },
-        "MatMul",
+        "FullyConnected",
         "u8"
     },
     // 3D with the same values
diff --git a/src/plugins/intel_cpu/tests/unit/transformations/convert_matmul_test.cpp b/src/plugins/intel_cpu/tests/unit/transformations/convert_matmul_test.cpp
@@ -249,6 +249,96 @@ TEST_F(TransformationTestsF, ConvertMatMulToFCTest14) {
     }
 }
 
+TEST_F(TransformationTestsF, ConvertMatMulToFCTest_4d_1) {
+    {
+        auto input1 = std::make_shared<ov::opset1::Parameter>(ov::element::f32, ov::Shape{2, 3, 4, 5});
+        auto input2 = ov::opset1::Constant::create(ov::element::f32, ov::Shape{ 6, 5 }, { 1 });
+        auto matmul = std::make_shared<ov::opset1::MatMul>(input1, input2, false, true);
+
+        model = std::make_shared<ov::Model>(ov::NodeVector{matmul}, ov::ParameterVector{input1});
+        manager.register_pass<ConvertMatMulToFC>();
+    }
+    {
+        auto input1 = std::make_shared<ov::opset1::Parameter>(ov::element::f32, ov::Shape{2, 3, 4, 5});
+        auto input2 = ov::opset1::Constant::create(ov::element::f32, ov::Shape{ 6, 5 }, { 1 });
+        auto fc = std::make_shared<FullyConnectedNode>(input1, input2, ov::Rank(4), ov::element::f32);
+
+        model_ref = std::make_shared<ov::Model>(ov::NodeVector{fc}, ov::ParameterVector{input1});
+    }
+}
+
+TEST_F(TransformationTestsF, ConvertMatMulToFCTest_4d_2) {
+    {
+        auto input1 = std::make_shared<ov::opset1::Parameter>(ov::element::f32, ov::PartialShape{-1, -1, 1, 5});
+        auto input2 = ov::opset1::Constant::create(ov::element::f32, ov::Shape{1, 10, 5}, {1});
+        auto fc = std::make_shared<ov::opset1::MatMul>(input1, input2, false, true);
+
+        model = std::make_shared<ov::Model>(ov::NodeVector{fc}, ov::ParameterVector{input1});
+        manager.register_pass<ConvertMatMulToFC>();
+    }
+    {
+        auto input1 = std::make_shared<ov::opset1::Parameter>(ov::element::f32, ov::PartialShape{-1, -1, 1, 5});
+        auto input2 = ov::opset1::Constant::create(ov::element::f32, ov::Shape{10, 5}, {1});
+        auto fc = std::make_shared<FullyConnectedNode>(input1, input2, ov::Rank(4));
+
+        model_ref = std::make_shared<ov::Model>(ov::NodeVector{fc}, ov::ParameterVector{input1});
+    }
+}
+
+TEST_F(TransformationTestsF, ConvertMatMulToFCTest_4d_3) {
+    {
+        auto input1 = std::make_shared<ov::opset1::Parameter>(ov::element::f32, ov::Shape{2, 4});
+        auto input2 = ov::opset1::Constant::create(ov::element::f32, ov::Shape{1, 1, 5, 4}, { 1 });
+        auto matmul = std::make_shared<ov::opset1::MatMul>(input1, input2, false, true);
+
+        model = std::make_shared<ov::Model>(ov::NodeVector{matmul}, ov::ParameterVector{input1});
+        manager.register_pass<ConvertMatMulToFC>();
+    }
+    {
+        auto input1 = std::make_shared<ov::opset1::Parameter>(ov::element::f32, ov::Shape{2, 4});
+        auto input2 = ov::opset1::Constant::create(ov::element::f32, ov::Shape{5, 4}, { 1 });
+        auto fc = std::make_shared<FullyConnectedNode>(input1, input2, ov::Rank(4), ov::element::f32);
+
+        model_ref = std::make_shared<ov::Model>(ov::NodeVector{fc}, ov::ParameterVector{input1});
+    }
+}
+
+TEST_F(TransformationTestsF, ConvertMatMulToFCTest_4d_4) {
+    {
+        auto input1 = std::make_shared<ov::opset1::Parameter>(ov::element::f32, ov::Shape{3, 2, 4});
+        auto input2 = ov::opset1::Constant::create(ov::element::f32, ov::Shape{1, 1, 5, 4}, { 1 });
+        auto matmul = std::make_shared<ov::opset1::MatMul>(input1, input2, false, true);
+
+        model = std::make_shared<ov::Model>(ov::NodeVector{matmul}, ov::ParameterVector{input1});
+        manager.register_pass<ConvertMatMulToFC>();
+    }
+    {
+        auto input1 = std::make_shared<ov::opset1::Parameter>(ov::element::f32, ov::Shape{3, 2, 4});
+        auto input2 = ov::opset1::Constant::create(ov::element::f32, ov::Shape{5, 4}, { 1 });
+        auto fc = std::make_shared<FullyConnectedNode>(input1, input2, ov::Rank(4), ov::element::f32);
+
+        model_ref = std::make_shared<ov::Model>(ov::NodeVector{fc}, ov::ParameterVector{input1});
+    }
+}
+
+TEST_F(TransformationTestsF, ConvertMatMulToFCTest_4d_5) {
+    {
+        auto input1 = std::make_shared<ov::opset1::Parameter>(ov::element::f32, ov::Shape{2, 3, 2, 4});
+        auto input2 = ov::opset1::Constant::create(ov::element::f32, ov::Shape{1, 1, 5, 4}, { 1 });
+        auto matmul = std::make_shared<ov::opset1::MatMul>(input1, input2, false, true);
+
+        model = std::make_shared<ov::Model>(ov::NodeVector{matmul}, ov::ParameterVector{input1});
+        manager.register_pass<ConvertMatMulToFC>();
+    }
+    {
+        auto input1 = std::make_shared<ov::opset1::Parameter>(ov::element::f32, ov::Shape{2, 3, 2, 4});
+        auto input2 = ov::opset1::Constant::create(ov::element::f32, ov::Shape{5, 4}, { 1 });
+        auto fc = std::make_shared<FullyConnectedNode>(input1, input2, ov::Rank(4), ov::element::f32);
+
+        model_ref = std::make_shared<ov::Model>(ov::NodeVector{fc}, ov::ParameterVector{input1});
+    }
+}
+
 TEST_F(TransformationTestsF, ConvertMatMulToFCTest_second_input_rank_adj_1) {
     {
         auto input1 = std::make_shared<ov::opset1::Parameter>(ov::element::f32, ov::Shape{5, 2, 3});
@@ -385,4 +475,4 @@ TEST_F(TransformationTestsF, ConvertMatMulToFCTest_compressed_u8_weights) {
 
         model_ref = std::make_shared<ov::Model>(ov::NodeVector{ matmul }, ov::ParameterVector{ data });
     }
-}
+}

Original file line number	Diff line number	Diff line change
`@@ -53,8 +53,7 @@ ov::intel_cpu::ConvertMatMulToFC::ConvertMatMulToFC() {`
`53`	`53`	`auto rank_b = shape_b.rank().get_length();`
`54`	`54`
`55`	`55`	`// Transformation to FC is not supported for 1D inputs`
`56`		`- if (rank_a == 1 \|\| rank_b == 1 \|\|`
`57`		`- rank_a > 3 \|\| rank_b > 3) {`
	`56`	`+ if (rank_a == 1 \|\| rank_b == 1) {`
`58`	`57`	`return false;`
`59`	`58`	`}`
`60`	`59`