Utilize padded info transposed by input_order for dynamic padding

kelvinchoi-intel · kelvinchoi-intel · commit 019c7ce1b030 · 2024-09-11T15:54:29.000+09:00
diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/gemm_tiled_opt.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/gemm_tiled_opt.cl
@@ -200,14 +200,14 @@ KERNEL(gemm_tiled_opt)(
 #endif // TRANSPOSE_INPUT0
 #if TRANSPOSE_INPUT1 == TRANSPOSE_X_LAST
     const __global INPUT1_TYPE* b_ptr = input1 + batch_offset_input1;
-    #if HAS_DYNAMIC_N_PADDING || INPUT1_HAS_PADDING
+    #if HAS_DYNAMIC_K_PADDING || INPUT1_HAS_PADDING
         const uint input1_offset = FUNC_CALL(get_input1_index)(OPTIONAL_SHAPE_INFO_TENSOR b, f, w, z, 1, tile_n_offset) - batch_offset_input1;
     #else
         const uint input1_offset = FUNC_CALL(get_input1_index)(OPTIONAL_SHAPE_INFO_TENSOR 0, 0, 0, 0, 1, 0);
     #endif
 #elif TRANSPOSE_INPUT1 == TRANSPOSE_Y_LAST
     const __global INPUT1_TYPE* b_ptr = input1 + batch_offset_input1;
-    #if HAS_DYNAMIC_N_PADDING || INPUT1_HAS_PADDING
+    #if HAS_DYNAMIC_K_PADDING || INPUT1_HAS_PADDING
         const uint input1_offset = FUNC_CALL(get_input1_index)(OPTIONAL_SHAPE_INFO_TENSOR b, f, w, z, 0, (tile_n_offset + 1)) - batch_offset_input1;
         const uint input1_offset1 = FUNC_CALL(get_input1_index)(OPTIONAL_SHAPE_INFO_TENSOR b, f, w, z, (TILE_K), tile_n_offset) - batch_offset_input1;
     #else
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernel_selector_utils.h b/src/plugins/intel_gpu/src/kernel_selector/kernel_selector_utils.h
@@ -53,6 +53,12 @@ struct DimensionAccessHelperJit : virtual DimensionAccessHelperBase {
                     pad_before_after_sizes.push_back(toCodeString(d.pad.before));
                     pad_before_after_sizes.push_back(toCodeString(d.pad.after));
                 }
+
+                if (d.pad.is_dynamic || d.is_dynamic) {
+                    dims_padded.push_back(true);
+                } else {
+                    dims_padded.push_back(false);
+                }
             }
         }
     }
@@ -76,6 +82,7 @@ struct DimensionAccessHelperJit : virtual DimensionAccessHelperBase {
 
     std::vector<std::string> dims_sizes;
     std::vector<std::string> pad_before_after_sizes;
+    std::vector<bool> dims_padded;
 };
 
 std::vector<size_t> GetImageSizes(const kernel_selector::WeightsTensor& dimensions, const WeightsLayout layout);
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/gemm/gemm_kernel_tiled_opt.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/gemm/gemm_kernel_tiled_opt.cpp
@@ -205,27 +205,10 @@ JitConstants GemmKernelTiledOpt::GetJitConstants(const gemm_params& params) cons
         else
             jit.AddConstant(MakeJitConstant("TRANSPOSE_OUTPUT", 0 /* set as TRANSPOSE_X_LAST */));
 
-        bool has_dynamic_k_padding = params.transpose_input0 ? params.inputs[0].Y().pad.is_dynamic
-                                                             : params.inputs[0].X().pad.is_dynamic;
-        bool has_dynamic_n_padding = params.transpose_input1 ? params.inputs[1].Y().pad.is_dynamic
-                                                             : params.inputs[1].X().pad.is_dynamic;
+        bool has_dynamic_k_padding = params.transpose_input0 ? dims0_padded.dims_padded[input0_dims[6]]
+                                                             : dims0_padded.dims_padded[input0_dims[7]];
         if (has_dynamic_k_padding)
             jit.AddConstant(MakeJitConstant("HAS_DYNAMIC_K_PADDING", 1));
-        if (has_dynamic_n_padding)
-            jit.AddConstant(MakeJitConstant("HAS_DYNAMIC_N_PADDING", 1));
-
-        auto hasDynamicPad = [](DataTensor dt) -> bool {
-            auto dims = dt.GetDims();
-            for (auto d : dims) {
-                if (d.pad.is_dynamic)
-                    return true;
-            }
-            return false;
-        };
-        if (hasDynamicPad(params.inputs[0]))
-            jit.AddConstant(MakeJitConstant("INPUT0_HAS_PADDING", 1));
-        if (hasDynamicPad(params.inputs[1]))
-            jit.AddConstant(MakeJitConstant("INPUT1_HAS_PADDING", 1));
     } else {
         auto get_transposed_dim_size = [](const kernel_selector::DataTensor &data_tensor,
                                           const std::vector<int64_t>& dims_order, const std::string dim) {
diff --git a/src/plugins/intel_gpu/tests/unit/test_cases/gemm_gpu_test.cpp b/src/plugins/intel_gpu/tests/unit/test_cases/gemm_gpu_test.cpp
@@ -575,34 +575,34 @@ class gemm_gpu_tests: public ::testing::Test {
         ov::Shape in2_shape_aligned = { aligned_batch1_size, aligned_batch2_size, aligned_n_size, aligned_k_size };
 
         // Use dynamic padding for all BFYX dimensions
-        tensor dyn_pad_dims_input1({0, 0, 0, 0}, 0);
-        tensor dyn_pad_dims_input2({0, 0, 0, 0}, 0);
+        padding::DynamicDimsMask dyn_pad_dims_input1;
+        padding::DynamicDimsMask dyn_pad_dims_input2;
 
         if (n_dim_only) {
-            dyn_pad_dims_input1 = tensor({0, 0, 0, 0}, 0);
-            dyn_pad_dims_input2 = tensor({0, 0, 1, 0}, 0);
+            dyn_pad_dims_input1 = 0ul;
+            dyn_pad_dims_input2 = padding::DynamicDimsMask("1000");
         } else {
-            dyn_pad_dims_input1 = tensor({1, 1, 1, 1}, 0);
-            dyn_pad_dims_input2 = tensor({1, 1, 1, 1}, 0);
+            dyn_pad_dims_input1 = padding::DynamicDimsMask("1111");
+            dyn_pad_dims_input2 = padding::DynamicDimsMask("1111");
         }
 
-        auto in1_layout = layout{ {-1, -1, -1, -1}, data_types::f16, format::bfyx, padding({0, 0, 0, 0}, {0, 0, 0, 0}, 0.0f, dyn_pad_dims_input1)};
-        auto in2_layout = layout{ {-1, -1, -1, -1}, data_types::f16, format::bfyx, padding({0, 0, 0, 0}, {0, 0, 0, 0}, 0.0f, dyn_pad_dims_input2)};
+        auto in1_layout = layout{ {-1, -1, -1, -1}, data_types::f16, format::bfyx, padding({0, 0, 0, 0}, {0, 0, 0, 0}, dyn_pad_dims_input1)};
+        auto in2_layout = layout{ {-1, -1, -1, -1}, data_types::f16, format::bfyx, padding({0, 0, 0, 0}, {0, 0, 0, 0}, dyn_pad_dims_input2)};
 
         auto aligned_input1_mem = engine.allocate_memory({ov::PartialShape(in1_shape_aligned), data_types::f16, format::bfyx});
         auto aligned_input2_mem = engine.allocate_memory({ov::PartialShape(in2_shape_aligned), data_types::f16, format::bfyx});
 
         auto input1_mem = engine.reinterpret_buffer(*aligned_input1_mem, layout{ov::PartialShape(in1_shape),
                                                                                 data_types::f16,
                                                                                 format::bfyx,
-                                                                                n_dim_only ? padding({0, 0, 0, 0 }, {0, 0, 0, 0}, 0.0f, dyn_pad_dims_input1) :
-                                                                                             padding({padding_size_batch1, 0, 0, 0}, {0, padding_size_batch2, padding_size_m, padding_size_k}, 0.0f, dyn_pad_dims_input1)});
+                                                                                n_dim_only ? padding({0, 0, 0, 0 }, {0, 0, 0, 0}, dyn_pad_dims_input1) :
+                                                                                             padding({padding_size_batch1, 0, 0, 0}, {0, padding_size_batch2, padding_size_m, padding_size_k}, dyn_pad_dims_input1)});
 
         auto input2_mem = engine.reinterpret_buffer(*aligned_input2_mem, layout{ov::PartialShape(in2_shape),
                                                                                 data_types::f16,
                                                                                 format::bfyx,
-                                                                                n_dim_only ? padding({0, 0, 0, 0}, {0, 0, padding_size_n, 0}, 0.0f, dyn_pad_dims_input2) :
-                                                                                            padding({0, padding_size_batch2, 0, 0}, {padding_size_batch1, 0, padding_size_n, padding_size_k }, 0.0f, dyn_pad_dims_input2)});
+                                                                                n_dim_only ? padding({0, 0, 0, 0}, {0, 0, 0, padding_size_n}, dyn_pad_dims_input2) :
+                                                                                            padding({0, padding_size_batch2, 0, 0}, {padding_size_batch1, 0, padding_size_n, padding_size_k }, dyn_pad_dims_input2)});
 
         auto input_1_data = rg.generate_random_1d<ov::float16>(ov::shape_size(in1_shape), -2, 2);
         auto input_2_data = rg.generate_random_1d<ov::float16>(ov::shape_size(in2_shape), -2, 2);
@@ -1595,13 +1595,16 @@ TEST_F(gemm_gpu_tests, dynamic_padding_n_dim_only) {
     this->test_dynamic_padding(false, true);
 }
 
+#ifndef ENABLE_ONEDNN_FOR_GPU
+// Disable onednn test because onednn does not support format_tag::cbda, format_tag::badc.
 TEST_F(gemm_gpu_tests, dynamic_padding_w_transpose_order_all_dim) {
     this->test_dynamic_padding_w_transpose_order(false, false);
 }
 
 TEST_F(gemm_gpu_tests, dynamic_padding_w_transpose_order_n_dim_only) {
     this->test_dynamic_padding_w_transpose_order(false, true);
 }
+#endif
 
 TEST_F(gemm_gpu_tests, dynamic_multi_inference_same_shape) {
     this->test_dynamic_multi_inference_same_shape(false);

Original file line number	Diff line number	Diff line change
`@@ -53,6 +53,12 @@ struct DimensionAccessHelperJit : virtual DimensionAccessHelperBase {`
`53`	`53`	`pad_before_after_sizes.push_back(toCodeString(d.pad.before));`
`54`	`54`	`pad_before_after_sizes.push_back(toCodeString(d.pad.after));`
`55`	`55`	`}`
	`56`	`+`
	`57`	`+ if (d.pad.is_dynamic \|\| d.is_dynamic) {`
	`58`	`+ dims_padded.push_back(true);`
	`59`	`+ } else {`
	`60`	`+ dims_padded.push_back(false);`
	`61`	`+ }`
`56`	`62`	`}`
`57`	`63`	`}`
`58`	`64`	`}`
`@@ -76,6 +82,7 @@ struct DimensionAccessHelperJit : virtual DimensionAccessHelperBase {`
`76`	`82`
`77`	`83`	`std::vector<std::string> dims_sizes;`
`78`	`84`	`std::vector<std::string> pad_before_after_sizes;`
	`85`	`+ std::vector<bool> dims_padded;`
`79`	`86`	`};`
`80`	`87`
`81`	`88`	`std::vector<size_t> GetImageSizes(const kernel_selector::WeightsTensor& dimensions, const WeightsLayout layout);`