[LPT] Quantized LSTM & GRU extended support

eshoguli · eshoguli · commit e7840ff3b437 · 2024-07-22T19:53:30.000+01:00
diff --git a/src/common/low_precision_transformations/include/low_precision/broadcast.hpp b/src/common/low_precision_transformations/include/low_precision/broadcast.hpp
@@ -0,0 +1,30 @@
+// Copyright (C) 2024 Intel Corporation
+// SPDX-License-Identifier: Apache-2.0
+//
+
+#pragma once
+
+#include "transparent_base_transformation.hpp"
+
+namespace ov {
+namespace pass {
+namespace low_precision {
+
+/**
+ * @ingroup ov_transformation_common_api
+ * @brief BroadcastTransformation propagates dequantization operations through Broadcast operation.
+ *
+ * For more details about the transformation, refer to
+ * [BroadcastTransformation](@ref openvino_docs_OV_UG_lpt_BroadcastTransformation) page
+ * in the OpenVINO Developer Guide.
+ */
+class LP_TRANSFORMATIONS_API BroadcastTransformation : public TransparentBaseTransformation {
+public:
+    OPENVINO_RTTI("BroadcastTransformation", "0");
+    BroadcastTransformation(const Params& params = Params());
+    bool canBeTransformed(const TransformationContext& context, std::shared_ptr<ov::Node> layer) const override;
+};
+
+}  // namespace low_precision
+}  // namespace pass
+}  // namespace ov
diff --git a/src/common/low_precision_transformations/include/low_precision/recurrent_cell.hpp b/src/common/low_precision_transformations/include/low_precision/recurrent_cell.hpp
@@ -23,6 +23,9 @@ class LP_TRANSFORMATIONS_API RecurrentCellTransformation : public LayerTransform
     static std::shared_ptr<ov::Node> wrap_fake_quantize(const std::shared_ptr<ov::Node> parameter);
     static std::shared_ptr<ov::Node> wrap_quantization(const std::shared_ptr<ov::Node> parameter);
     static std::shared_ptr<ov::Node> wrap_dequantization(const std::shared_ptr<ov::Node> parameter, const bool with_subtract);
+
+private:
+    void propagate(TransformationContext& context, std::shared_ptr<ov::Node>& node);
 };
 
 } // namespace low_precision
diff --git a/src/common/low_precision_transformations/include/low_precision/rt_info/precision_preserved_attribute.hpp b/src/common/low_precision_transformations/include/low_precision/rt_info/precision_preserved_attribute.hpp
@@ -26,6 +26,8 @@ class LP_TRANSFORMATIONS_API PrecisionPreservedAttribute : public SharedAttribut
 
     PrecisionPreservedAttribute() = default;
     PrecisionPreservedAttribute(const bool value);
+    bool is_copyable() const override;
+    bool is_copyable(const std::shared_ptr<Node>& to) const override;
 
     std::string to_string() const override;
 };
diff --git a/src/common/low_precision_transformations/src/broadcast.cpp b/src/common/low_precision_transformations/src/broadcast.cpp
@@ -0,0 +1,55 @@
+﻿// Copyright (C) 2024 Intel Corporation
+// SPDX-License-Identifier: Apache-2.0
+//
+
+#include "low_precision/broadcast.hpp"
+
+#include <memory>
+#include "openvino/pass/pattern/op/wrap_type.hpp"
+#include "low_precision/network_helper.hpp"
+#include "itt.hpp"
+
+using namespace ov::pass::low_precision;
+
+BroadcastTransformation::BroadcastTransformation(const Params& params) : TransparentBaseTransformation(params) {
+    MATCHER_SCOPE(BroadcastTransformation);
+    auto matcher = pattern::wrap_type<ov::opset1::Broadcast>({
+        pattern::wrap_type<ov::opset1::Multiply>(),
+        ov::pass::pattern::any_input(),
+        ov::pass::pattern::any_input() });
+
+    ov::graph_rewrite_callback callback = [this](pattern::Matcher& m) {
+        auto op = m.get_match_root();
+        if (transformation_callback(op)) {
+            return false;
+        }
+        return transform(*context, m);
+    };
+
+    auto m = std::make_shared<ov::pass::pattern::Matcher>(matcher, matcher_name);
+    this->register_matcher(m, callback);
+}
+
+bool BroadcastTransformation::canBeTransformed(const TransformationContext& context, std::shared_ptr<ov::Node> layer) const {
+    if (layer->get_friendly_name() == "model/bidirectional/backward_lstm_1/zeros_1") {
+        std::cout << "BroadcastTransformation::canBeTransformed: " << layer->get_friendly_name() << std::endl;
+    }
+    if (!LayerTransformation::canBeTransformed(context, layer)) {
+        return false;
+    }
+
+    const auto& dequantization = NetworkHelper::getDequantization(layer, defaultPrecisions);
+    if (dequantization.multiply != nullptr) {
+        if (!NetworkHelper::isScalarLike(dequantization.multiplyConstant)) {
+            return false;
+        }
+    }
+
+    if (dequantization.subtract != nullptr) {
+        if (!NetworkHelper::isScalarLike(dequantization.subtractConstant)) {
+            return false;
+        }
+    }
+
+    return true;
+}
diff --git a/src/common/low_precision_transformations/src/layer_transformation.cpp b/src/common/low_precision_transformations/src/layer_transformation.cpp
@@ -401,6 +401,7 @@ std::shared_ptr<ov::Node> LayerTransformation::moveDequantizationAfter(
     const FakeQuantizeDequantization& dequantization,
     const bool updateOutputPrecision,
     const bool moveSubtract) const {
+    OPENVINO_ASSERT(!dequantization.empty());
     const auto result = ov::pass::low_precision::NetworkHelper::moveDequantizationAfter(operation,
         dequantization,
         updateOutputPrecision,
diff --git a/src/common/low_precision_transformations/src/low_precision.cpp b/src/common/low_precision_transformations/src/low_precision.cpp
@@ -44,6 +44,7 @@
 #include "low_precision/assign_and_read_value.hpp"
 #include "low_precision/avg_pool.hpp"
 #include "low_precision/batch_to_space.hpp"
+#include "low_precision/broadcast.hpp"
 #include "low_precision/clamp.hpp"
 #include "low_precision/convolution.hpp"
 #include "low_precision/convolution_backprop_data.hpp"
@@ -240,6 +241,7 @@ bool ov::pass::low_precision::LowPrecision::run_on_model(const std::shared_ptr<o
     ADD_MATCHER(common, AssignAndReadValueTransformation, f, params)
     ADD_MATCHER(common, AvgPoolTransformation, params)
     ADD_MATCHER(common, BatchToSpaceTransformation, params)
+    ADD_MATCHER(common, BroadcastTransformation, params)
     ADD_MATCHER(common, ClampTransformation, params)
     ADD_MATCHER(common, ConcatTransformation, params)
     ADD_MATCHER(common, ConvolutionTransformation, params)
diff --git a/src/common/low_precision_transformations/src/markup_precisions.cpp b/src/common/low_precision_transformations/src/markup_precisions.cpp
@@ -152,6 +152,7 @@ bool ov::pass::low_precision::MarkupPrecisions::isPrecisionPreserved(const std::
         { name<opset1::Relu>() },
         // TODO: there are conditions
         { name<opset2::BatchToSpace>() },
+        { name<opset1::Broadcast>() },
         { name<opset1::Pad>() },
         { name<ov::opset12::Pad>() },
         { name<opset1::Reshape>() },
@@ -192,6 +193,7 @@ bool ov::pass::low_precision::MarkupPrecisions::isSupported(const std::shared_pt
         { name<opset1::Add>() },
         { name<opset1::AvgPool>() },
         { name<opset2::BatchToSpace>() },
+        { name<opset2::Broadcast>() },
         { name<opset1::Clamp>() },
         { name<opset1::Concat>() },
         // ?
diff --git a/src/common/low_precision_transformations/src/recurrent_cell.cpp b/src/common/low_precision_transformations/src/recurrent_cell.cpp
@@ -46,25 +46,10 @@ RecurrentCellTransformation::RecurrentCellTransformation(const Params& params) :
     const auto dequantization_without_subtract_W = wrap_dequantization(ov::pass::pattern::any_input(), false);
     const auto dequantization_without_subtract_R = wrap_dequantization(ov::pass::pattern::any_input(), false);
 
-    auto X_in = std::make_shared<ov::pass::pattern::op::Or>(
-        OutputVector{
-            fq_X, dequantization_X, dequantization_without_subtract_X
-        });
-
-    auto H_in = std::make_shared<ov::pass::pattern::op::Or>(
-        OutputVector{
-            H_as_const, fq_H, dequantization_H, dequantization_without_subtract_H
-        });
-
-    auto W_in = std::make_shared<ov::pass::pattern::op::Or>(
-        OutputVector{
-            fq_W, dequantization_W, dequantization_without_subtract_W
-        });
-
-    auto R_in = std::make_shared<ov::pass::pattern::op::Or>(
-        OutputVector{
-            fq_R, dequantization_R, dequantization_without_subtract_R
-        });
+    auto X_in = ov::pass::pattern::any_input();
+    auto H_in = ov::pass::pattern::any_input();
+    auto W_in = ov::pass::pattern::any_input();
+    auto R_in = ov::pass::pattern::any_input();
 
     const auto lstm_seq = ov::pass::pattern::wrap_type<ov::opset5::LSTMSequence>(
         {X_in, H_in, C, S, W_in, R_in, B});
@@ -91,8 +76,92 @@ RecurrentCellTransformation::RecurrentCellTransformation(const Params& params) :
     this->register_matcher(m, callback);
 }
 
+namespace {
+
+std::shared_ptr<ov::opset1::FakeQuantize> find_fake_quantize_upper(const std::shared_ptr<Node>& parent) {
+    if (is_type<ov::opset1::FakeQuantize>(parent)) {
+        return as_type_ptr<ov::opset1::FakeQuantize>(parent);
+    }
+
+    if (!NetworkHelper::isPrecisionPreserved(parent)) {
+        return nullptr;
+    }
+
+    return find_fake_quantize_upper(parent->get_input_node_shared_ptr(0));
+}
+
+} // namespace
+
+void RecurrentCellTransformation::propagate(TransformationContext& context, std::shared_ptr<ov::Node>& node) {
+    if (!NetworkHelper::isPrecisionPreserved(node)) {
+        return;
+    }
+
+    const auto& normalized_node = NetworkHelper::separateInStandaloneBranch(node, defaultPrecisions);
+    auto dequantization = NetworkHelper::getDequantization(node, defaultPrecisions);
+    if (dequantization.empty()) {
+        return;
+    }
+    const auto& new_node = moveDequantizationAfter(context, normalized_node, dequantization);
+
+    const auto& new_dequantization = NetworkHelper::getDequantizationBelow(new_node);
+    if (new_dequantization.empty()) {
+        return;
+    }
+
+    for (auto output : new_dequantization.multiply->outputs()) {
+        for (auto input : output.get_target_inputs()) {
+            auto& child = input.get_node()->shared_from_this();
+            propagate(context, child);
+        }
+    }
+}
+
 bool RecurrentCellTransformation::transform(TransformationContext& context, ov::pass::pattern::Matcher& m) {
     const auto lstm = m.get_match_root();
+
+    const auto inputs = is_type<ov::opset5::LSTMSequence>(lstm) ? std::vector<size_t>{0, 1, 4, 5} : std::vector<size_t>{0, 1, 3, 4};
+    for (const auto input : inputs) {
+        const auto& parent = lstm->get_input_node_shared_ptr(input);
+        if (!NetworkHelper::isPrecisionPreserved(parent)) {
+            continue;
+        }
+
+        const auto& fq = find_fake_quantize_upper(parent);
+        if (fq != nullptr) {
+            const auto& quantizationDetails = QuantizationDetails::getDetails(fq);
+            if ((quantizationDetails.inputLowValues.size() != 1) || (quantizationDetails.inputHighValues.size() != 1) ||
+                (quantizationDetails.outputLowValues.size() != 1) || (quantizationDetails.outputHighValues.size() != 1)) {
+                continue;
+            }
+
+            const auto& precisionsAttribute = getAttributeFromOutput<PrecisionsAttribute>(fq);
+            const auto& precisions = precisionsAttribute.empty() ?
+                defaultPrecisions :
+                precisionsAttribute.as<PrecisionsAttribute>().value();
+            const auto& dataPrecision = getDataPrecision(fq, quantizationDetails, precisions);
+            if (dataPrecision.empty()) {
+                continue;
+            }
+
+            auto result = NetworkHelper::decomposeFakeQuantize(
+                fq,
+                dataPrecision.precision,
+                dataPrecision.min,
+                dataPrecision.max,
+                dataPrecision.hasZeroPoint,
+                updatePrecisions);
+            auto multiply = std::get<1>(result);
+
+            for (const auto& output : multiply->outputs()) {
+                for (const auto& input : output.get_target_inputs()) {
+                    const auto input_node = input.get_node();
+                    propagate(context, input_node->shared_from_this());
+                }
+            }
+        }
+    }
+
     if (!canBeTransformed(context, lstm)) {
         return false;
     }
diff --git a/src/common/low_precision_transformations/src/rt_info/precision_preserved_attribute.cpp b/src/common/low_precision_transformations/src/rt_info/precision_preserved_attribute.cpp
@@ -20,3 +20,11 @@ std::string PrecisionPreservedAttribute::to_string() const {
     ss << "value: " << (value() ? "true" : "false");
     return ss.str();
 }
+
+bool PrecisionPreservedAttribute::is_copyable() const {
+    return false;
+}
+
+bool PrecisionPreservedAttribute::is_copyable(const std::shared_ptr<Node>& to) const {
+    return false;
+}
diff --git a/src/plugins/intel_cpu/tests/functional/shared_tests_instances/low_precision_transformations/recurrent_cell_transformation.cpp b/src/plugins/intel_cpu/tests/functional/shared_tests_instances/low_precision_transformations/recurrent_cell_transformation.cpp
@@ -92,6 +92,7 @@ INSTANTIATE_TEST_SUITE_P(smoke_LPT, RecurrentCellTransformation,
         ::testing::ValuesIn(weights_shapes),
         ::testing::Values(ov::test::utils::DEVICE_CPU),
         ::testing::ValuesIn(trasformationParamValues),
+        ::testing::ValuesIn({ true, false }),
         ::testing::ValuesIn(params)),
     RecurrentCellTransformation::getTestCaseName);
 } // namespace testValues1
@@ -171,6 +172,7 @@ INSTANTIATE_TEST_SUITE_P(smoke_LPT, RecurrentCellTransformation,
         ::testing::ValuesIn(weights_shapes),
         ::testing::Values(ov::test::utils::DEVICE_CPU),
         ::testing::ValuesIn(trasformationParamValues),
+        ::testing::ValuesIn({ true, false }),
         ::testing::ValuesIn(params)),
     RecurrentCellTransformation::getTestCaseName);
 } // namespace testValues2
diff --git a/src/tests/functional/plugin/shared/include/low_precision_transformations/recurrent_cell_transformation.hpp b/src/tests/functional/plugin/shared/include/low_precision_transformations/recurrent_cell_transformation.hpp
@@ -42,6 +42,7 @@ typedef std::tuple<
     std::vector<ov::Shape>,
     std::string,
     ov::pass::low_precision::LayerTransformation::Params,
+    bool, // use precision transparent operations
     RecurrentCellTransformationParam
 >RecurrentCellTransformationParams;
 
diff --git a/src/tests/functional/plugin/shared/src/low_precision_transformations/recurrent_cell_transformation.cpp b/src/tests/functional/plugin/shared/src/low_precision_transformations/recurrent_cell_transformation.cpp
@@ -21,14 +21,16 @@ std::string RecurrentCellTransformation::getTestCaseName(testing::TestParamInfo<
     std::string targetDevice;
     RecurrentCellTransformationParam param;
     ov::pass::low_precision::LayerTransformation::Params params;
-    std::tie(netPrecision, activationsShape, weightsShape, targetDevice, params, param) = obj.param;
+    bool addPrecisionTransparentOperations;
+    std::tie(netPrecision, activationsShape, weightsShape, targetDevice, params, addPrecisionTransparentOperations, param) = obj.param;
 
     std::ostringstream result;
     result << get_test_case_name_by_params(netPrecision, activationsShape[0], targetDevice, params) <<
            "FQ_X_" << param.fakeQuantize_X << "_" <<
         "DQ_X_" << param.dequantization_X << "_" <<
         "FQ_W_" << param.fakeQuantize_W << "_" <<
-        "DQ_W_" << param.dequantization_W;
+        "DQ_W_" << param.dequantization_W << "_" <<
+        "PTO" << addPrecisionTransparentOperations;
     return result.str();
 }
 
@@ -37,9 +39,10 @@ void RecurrentCellTransformation::SetUp() {
     std::vector<ov::PartialShape> activations_shapes;
     std::vector<ov::Shape> weights_shapes;
     RecurrentCellTransformationParam param;
+    bool addPrecisionTransparentOperations;
     ov::pass::low_precision::LayerTransformation::Params params;
 
-    std::tie(precision, activations_shapes, weights_shapes, targetDevice, params, param) = this->GetParam();
+    std::tie(precision, activations_shapes, weights_shapes, targetDevice, params, addPrecisionTransparentOperations, param) = this->GetParam();
 
     init_input_shapes(activations_shapes);
 
@@ -64,13 +67,15 @@ void RecurrentCellTransformation::SetUp() {
                                                                           param.dequantization_H,
                                                                           param.dequantization_W,
                                                                           param.dequantization_R
-                                                                      });
+                                                                      },
+                                                                      addPrecisionTransparentOperations);
+    ov::pass::Serialize("test.original.xml", "test.original.bin").run_on_model(function);
 }
 
 void RecurrentCellTransformation::run() {
     LayerTransformation::run();
 
-    const auto params = std::get<5>(GetParam());
+    const auto params = std::get<6>(GetParam());
     const auto actualPrecision = get_runtime_precision_by_type(params.layerName);
     auto expectedPrecision = params.expectedKernelType;
     if (expectedPrecision == "FP32" && std::get<0>(GetParam()) == ov::element::f16) {
diff --git a/src/tests/ov_helpers/ov_lpt_models/include/ov_lpt_models/recurrent_cell.hpp b/src/tests/ov_helpers/ov_lpt_models/include/ov_lpt_models/recurrent_cell.hpp
@@ -25,15 +25,17 @@ class RecurrentCellFunction {
         const RNNType type,
         const std::vector<FakeQuantizeOnDataWithConstant>& fqOnDatas,
         const std::vector<DequantizationOperations::Convert>& converts,
-        const std::vector<DequantizationOperations>& dequantizations);
+        const std::vector<DequantizationOperations>& dequantizations,
+        const bool addPrecisionTransparentOperations);
 };
 
 std::shared_ptr<Node> makeQuantizationAndDequantization(const std::shared_ptr<Node> input,
                                                         const ov::element::Type inputPrecision,
                                                         const std::string friendly_name,
                                                         const FakeQuantizeOnDataWithConstant& fqOnData,
                                                         const DequantizationOperations::Convert& convert,
-                                                        const DequantizationOperations& dequantization);
+                                                        const DequantizationOperations& dequantization,
+                                                        const bool addPrecisionTransparentOperations = false);
 }  // namespace subgraph
 }  // namespace builder
 }  // namespace ov
diff --git a/src/tests/ov_helpers/ov_lpt_models/src/recurrent_cell.cpp b/src/tests/ov_helpers/ov_lpt_models/src/recurrent_cell.cpp