[GPU] Fix accuracy of gemm_tiled_opt kernel

kelvinchoi-intel · kelvinchoi-intel · commit 9aec1a78de31 · 2024-07-19T17:45:42.000+09:00
diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/gemm_tiled_opt.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/gemm_tiled_opt.cl
@@ -309,10 +309,15 @@ KERNEL(gemm_tiled_opt)(
             else
             #endif // INDIRECT_INPUT1
             {
-        #if N_IS_ALIGNED_4BYTE
-                b_tile[b_load_id] = BLOCK_READ_B(b_ptr, 0);
-        #else
+        // #if N_IS_ALIGNED_4BYTE
+        //         b_tile[b_load_id] = BLOCK_READ_B(b_ptr, 0);
+        // #else
+        //         b_tile[b_load_id] = b_raw_global_id > N - 1 ? 0 : b_ptr[sglid];
+        // #endif
+        #if TILE_N_NOT_DIVISIBLE
                 b_tile[b_load_id] = b_raw_global_id > N - 1 ? 0 : b_ptr[sglid];
+        #else
+                b_tile[b_load_id] = BLOCK_READ_B(b_ptr, 0);
         #endif
                 b_ptr += input1_offset;
             }
@@ -395,11 +400,16 @@ KERNEL(gemm_tiled_opt)(
         #if INDIRECT_INPUT0
             uint a_idx = FUNC_CALL(get_input0_indirect_index)(OPTIONAL_SHAPE_INFO_TENSOR b, f, w, z, (y + dot_id), (k * TILE_K + sglid), beam_table);
             A_FLOATN a_read = input0[a_idx];
-#elif K_IS_ALIGNED_4BYTE
-            A_FLOATN a_read = BLOCK_READ_A(a_ptr, 0);
-#else // K_IS_ALIGNED_4BYTE
+// #elif K_IS_ALIGNED_4BYTE
+//             A_FLOATN a_read = BLOCK_READ_A(a_ptr, 0);
+// #else // K_IS_ALIGNED_4BYTE
+//             A_FLOATN a_read = a_ptr[sglid];
+// #endif // K_IS_ALIGNED_4BYTE
+#elif TILE_K_NOT_DIVISIBLE
             A_FLOATN a_read = a_ptr[sglid];
-#endif // K_IS_ALIGNED_4BYTE
+#else // TILE_K_NOT_DIVISIBLE
+            A_FLOATN a_read = BLOCK_READ_A(a_ptr, 0);
+#endif // TILE_K_NOT_DIVISIBLE
 #endif // IS_DYNAMIC
             a_ptr += input0_offset;
 
@@ -617,11 +627,16 @@ KERNEL(gemm_tiled_opt)(
             else
             #endif
             {
-        #if N_IS_ALIGNED_4BYTE
-                b_tile[b_load_id] = BLOCK_READ_B(b_ptr, 0);
-        #else // N_IS_ALIGNED_4BYTE
+        // #if N_IS_ALIGNED_4BYTE
+        //         b_tile[b_load_id] = BLOCK_READ_B(b_ptr, 0);
+        // #else // N_IS_ALIGNED_4BYTE
+        //         b_tile[b_load_id] = b_raw_global_id > N - 1 ? 0 : b_ptr[sglid];
+        // #endif // N_IS_ALIGNED_4BYTE
+        #if TILE_N_NOT_DIVISIBLE
                 b_tile[b_load_id] = b_raw_global_id > N - 1 ? 0 : b_ptr[sglid];
-        #endif // N_IS_ALIGNED_4BYTE
+        #else // TILE_N_NOT_DIVISIBLE
+                b_tile[b_load_id] = BLOCK_READ_B(b_ptr, 0);
+        #endif // TILE_N_NOT_DIVISIBLE
                 b_ptr += input1_offset;
             }
         #elif TRANSPOSE_INPUT1 == TRANSPOSE_OTHER // TRANSPOSE_INPUT1 == 0
@@ -660,23 +675,24 @@ KERNEL(gemm_tiled_opt)(
          }
         #endif // TRANSPOSE_INPUT1 == TRANSPOSE_Y_LAST
 
-#if !INDIRECT_INPUT0 && K_IS_ALIGNED_4BYTE && (TRANSPOSE_INPUT0 == TRANSPOSE_X_LAST)
-    a_ptr = input0 + FUNC_CALL(get_input0_index)(OPTIONAL_SHAPE_INFO_TENSOR b, f, w, z, y, (K_FULL_ITERATIONS * TILE_K));
-#endif
+// #if !INDIRECT_INPUT0 && K_IS_ALIGNED_4BYTE && (TRANSPOSE_INPUT0 == TRANSPOSE_X_LAST)
+//     a_ptr = input0 + FUNC_CALL(get_input0_index)(OPTIONAL_SHAPE_INFO_TENSOR b, f, w, z, y, (K_FULL_ITERATIONS * TILE_K));
+// #endif
     // Loading leftovers of the matrix A and tile C calculation
     unroll_for (uint dot_id = 0; dot_id < tile_m_iterations; dot_id++) {
         #if INDIRECT_INPUT0
         uint a_idx = FUNC_CALL(get_input0_indirect_index)(OPTIONAL_SHAPE_INFO_TENSOR b, f, w, z, (y + dot_id), (K_FULL_ITERATIONS * TILE_K + sglid), beam_table);
-        INPUT0_TYPE a_read = input0[a_idx];
-#else  // INDIRECT_INPUT0
-#if K_IS_ALIGNED_4BYTE && (TRANSPOSE_INPUT0 == TRANSPOSE_X_LAST)
-        INPUT0_TYPE a_read = BLOCK_READ_A(a_ptr, 0);
-        a_ptr += input0_offset;
+//         INPUT0_TYPE a_read = input0[a_idx];
+// #else  // INDIRECT_INPUT0
+// #if K_IS_ALIGNED_4BYTE && (TRANSPOSE_INPUT0 == TRANSPOSE_X_LAST)
+//         INPUT0_TYPE a_read = BLOCK_READ_A(a_ptr, 0);
+//         a_ptr += input0_offset;
 #else
         uint a_idx = FUNC_CALL(get_input0_index)(OPTIONAL_SHAPE_INFO_TENSOR b, f, w, z, (y + dot_id), (K_FULL_ITERATIONS * TILE_K + sglid));
+#endif //--kelvin
         INPUT0_TYPE a_read = input0[a_idx];
-#endif
-#endif // INDIRECT_INPUT0
+// #endif
+// #endif // INDIRECT_INPUT0
         unroll_for (uint simd_id = 0; simd_id < TILE_K_LEFTOVER; simd_id++) {
             c_tile[dot_id] = mad((INPUT0_TYPE)(sub_group_broadcast(a_read, simd_id)), b_tile[simd_id], c_tile[dot_id]);
         }
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/gemm/gemm_kernel_tiled_opt.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/gemm/gemm_kernel_tiled_opt.cpp
@@ -96,8 +96,8 @@ GemmKernelTiledOpt::GemmTuningData GemmKernelTiledOpt::SetTuningParams(const gem
             tuning_data.tile_m_size = tuning_data.simd_size;
         }
         // Increasing tile_n_size has performance improvement when m_size and n_size are not shallow and n_size is aligned at 32.
-        if (m_size >= 128 && n_size >= 128 && (n_size % 32 == 0) && tuning_data.simd_size == 16 && params.fused_ops.empty())
-            tuning_data.tile_n_size = 32;
+        // if (m_size >= 128 && n_size >= 128 && (n_size % 32 == 0) && tuning_data.simd_size == 16 && params.fused_ops.empty())
+        //     tuning_data.tile_n_size = 32;
 
         GPU_DEBUG_LOG << params.layerID << ": m_size: " << m_size << ", n_size: " << n_size << ", k_size: " << k_size << std::endl;
     } else {
@@ -239,17 +239,17 @@ JitConstants GemmKernelTiledOpt::GetJitConstants(const gemm_params& params) cons
         auto leftover_m = m_size % tuning_data.tile_m_size;
         auto leftover_n = n_size % tuning_data.tile_n_size;
         auto leftover_k = k_size % tuning_data.tile_k_size;
-        auto n_aligned_4byte = (n_size * BytesPerElement(params.inputs[0].GetDType())) % 4 == 0;
-        auto k_aligned_4byte = (k_size * BytesPerElement(params.inputs[0].GetDType())) % 4 == 0;
+        // auto n_aligned_4byte = (n_size * BytesPerElement(params.inputs[0].GetDType())) % 4 == 0;
+        // auto k_aligned_4byte = (k_size * BytesPerElement(params.inputs[0].GetDType())) % 4 == 0;
 
         jit.AddConstants({
             MakeJitConstant("M", m_size),
             MakeJitConstant("K", k_size),
             MakeJitConstant("N", n_size),
             MakeJitConstant("K_PADDED_IN0", k_size),
             MakeJitConstant("N_PADDED", n_size),
-            MakeJitConstant("K_IS_ALIGNED_4BYTE", k_aligned_4byte),
-            MakeJitConstant("N_IS_ALIGNED_4BYTE", n_aligned_4byte),
+            // MakeJitConstant("K_IS_ALIGNED_4BYTE", k_aligned_4byte),
+            // MakeJitConstant("N_IS_ALIGNED_4BYTE", n_aligned_4byte),
             MakeJitConstant("SIMD_WIDTH", tuning_data.simd_size),
             MakeJitConstant("TILE_M", tuning_data.tile_m_size),
             MakeJitConstant("TILE_K", tuning_data.tile_k_size),