[GPU] Fix gemm_tiled_opt kernel to support B_VEC_SIZE = 2 for static

kelvinchoi-intel · kelvinchoi-intel · commit f57102b9a15b · 2024-07-25T23:32:17.000+09:00
diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/gemm_tiled_opt.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/gemm_tiled_opt.cl
@@ -786,16 +786,26 @@ KERNEL(gemm_tiled_opt)(
         ACCUMULATOR_TYPE_VEC dequantized = TO_ACCUMULATOR_TYPE(ALPHA) * c_tile[write_id];
         #endif // BIAS_TERM
 
+        #if TRANSPOSE_OUTPUT == TRANSPOSE_X_LAST
+        const uint x_pitch = 1;
+        #else
+        const uint x_pitch = output_x_pitch;
+        #endif
+
         #if HAS_FUSED_OPS
             #if FUSED_OPS_CAN_USE_PRELOAD
         FUSED_OPS_CALC_VEC;
             #else // FUSED_OPS_CAN_USE_PRELOAD
         FUSED_OPS_VEC;
             #endif // FUSED_OPS_CAN_USE_PRELOAD
         OUTPUT_TYPE_VEC res = FUSED_OPS_RESULT_VEC;
-        BLOCK_WRITE_C(d_ptr, 0, res);
+        unroll_for (uint n_elem = 0; n_elem < B_VEC_SIZE; ++n_elem) {
+            BLOCK_WRITEN(OUTPUT_TYPE, 1, d_ptr, SIMD_WIDTH * n_elem * output_x_pitch, res[n_elem]);
+        }
         #else // HAS_FUSED_OPS
-        BLOCK_WRITE_C(d_ptr, 0, dequantized);
+        unroll_for (uint n_elem = 0; n_elem < B_VEC_SIZE; ++n_elem) {
+            BLOCK_WRITEN(OUTPUT_TYPE, 1, d_ptr, SIMD_WIDTH * n_elem * output_x_pitch, dequantized[n_elem]);
+        }
         #endif // HAS_FUSED_OPS
     #endif // TILE_N_NOT_DIVISIBLE || B_VEC_SIZE == 1
 #endif // IS_DYNAMIC
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/gemm/gemm_kernel_tiled_opt.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/gemm/gemm_kernel_tiled_opt.cpp
@@ -96,7 +96,9 @@ GemmKernelTiledOpt::GemmTuningData GemmKernelTiledOpt::SetTuningParams(const gem
             tuning_data.tile_m_size = tuning_data.simd_size;
         }
         // Increasing tile_n_size has performance improvement when m_size and n_size are not shallow and n_size is aligned at 32.
-        if (m_size >= 128 && n_size >= 128 && (n_size % 32 == 0) && tuning_data.simd_size == 16 && params.fused_ops.empty())
+        // TODO: Support TILE_K_LEFTOVER true case at static shape
+        if (m_size >= 128 && n_size >= 128 && (n_size % 32 == 0) && tuning_data.simd_size == 16 &&
+            (k_size % tuning_data.tile_k_size == 0) && params.fused_ops.empty())
             tuning_data.tile_n_size = 32;
 
         GPU_DEBUG_LOG << params.layerID << ": m_size: " << m_size << ", n_size: " << n_size << ", k_size: " << k_size << std::endl;
diff --git a/src/plugins/intel_gpu/tests/unit/test_cases/gemm_gpu_test.cpp b/src/plugins/intel_gpu/tests/unit/test_cases/gemm_gpu_test.cpp
@@ -1316,7 +1316,7 @@ class gemm_gpu_tests: public ::testing::Test {
         }
     }
 
-    void test_transpose_matmul_f16(size_t num_dims, bool is_input_dynamic, bool is_caching_test, std::vector<size_t> BMKN, std::vector<int64_t> input0_order, std::vector<int64_t> input1_order) {
+    void test_transpose_matmul_f16(size_t num_dims, bool is_input_dynamic, bool is_caching_test, std::vector<size_t> BMKN, std::vector<int64_t> input0_order, std::vector<int64_t> input1_order, const double abs_error = 0.0001) {
         tests::random_generator rg;
         rg.set_seed(GET_SUITE_NAME);
 
@@ -1411,7 +1411,6 @@ class gemm_gpu_tests: public ::testing::Test {
 
         ASSERT_EQ(output_ptr.size(), ref_out_data.size());
 
-        const auto abs_error = 0.0001;
         for (uint32_t i = 0; i < ref_out_data.size(); ++i) {
             ASSERT_NEAR(output_ptr[i], ref_out_data[i], abs_error) << "at " << i;
         }
@@ -1487,10 +1486,22 @@ TEST_F(gemm_gpu_tests, transpose_matmul_static_3d_f16) {
     this->test_transpose_matmul_f16(3, false, false, /*BMKN*/{19, 37, 23, 29}, /*input0_order*/{0, 2, 1}, /*input1_order*/{1, 2, 0});
 }
 
+TEST_F(gemm_gpu_tests, transpose_matmul_static_3d_f16_n32) {
+    this->test_transpose_matmul_f16(3, false, false, /*BMKN*/{1, 256, 32, 128}, /*input0_order*/{0, 1, 2}, /*input1_order*/{0, 2, 1}, 0.1);
+}
+
 TEST_F(gemm_gpu_tests, transpose_matmul_static_3d_f32) {
     this->test_transpose_matmul_f32(3, false, false, /*BMKN*/{19, 37, 23, 29}, /*input0_order*/{0, 2, 1}, /*input1_order*/{1, 2, 0});
 }
 
+TEST_F(gemm_gpu_tests, transpose_matmul_static_3d_f32_n32) {
+    this->test_transpose_matmul_f32(3, false, false, /*BMKN*/{2, 128, 16, 256}, /*input0_order*/{0, 1, 2}, /*input1_order*/{0, 2, 1});
+}
+
+TEST_F(gemm_gpu_tests, transpose_matmul_static_3d_f32_n32_k_remainder) {
+    this->test_transpose_matmul_f32(3, false, false, /*BMKN*/{2, 128, 17, 256}, /*input0_order*/{0, 1, 2}, /*input1_order*/{0, 2, 1});
+}
+
 TEST_F(gemm_gpu_tests, transpose_matmul_dynamic_4d_f16_unaligned) {
     this->test_transpose_matmul_f16(4, true, false, /*BMKN*/{19, 37, 23, 29}, /*input0_order*/{0, 2, 3, 1}, /*input1_order*/{1, 2, 3, 0});
 }

Original file line number	Diff line number	Diff line change
`@@ -1316,7 +1316,7 @@ class gemm_gpu_tests: public ::testing::Test {`
`1316`	`1316`	`}`
`1317`	`1317`	`}`
`1318`	`1318`
`1319`		`- void test_transpose_matmul_f16(size_t num_dims, bool is_input_dynamic, bool is_caching_test, std::vector<size_t> BMKN, std::vector<int64_t> input0_order, std::vector<int64_t> input1_order) {`
	`1319`	`+ void test_transpose_matmul_f16(size_t num_dims, bool is_input_dynamic, bool is_caching_test, std::vector<size_t> BMKN, std::vector<int64_t> input0_order, std::vector<int64_t> input1_order, const double abs_error = 0.0001) {`
`1320`	`1320`	`tests::random_generator rg;`
`1321`	`1321`	`rg.set_seed(GET_SUITE_NAME);`
`1322`	`1322`
`@@ -1411,7 +1411,6 @@ class gemm_gpu_tests: public ::testing::Test {`
`1411`	`1411`
`1412`	`1412`	`ASSERT_EQ(output_ptr.size(), ref_out_data.size());`
`1413`	`1413`
`1414`		`- const auto abs_error = 0.0001;`
`1415`	`1414`	`for (uint32_t i = 0; i < ref_out_data.size(); ++i) {`
`1416`	`1415`	`ASSERT_NEAR(output_ptr[i], ref_out_data[i], abs_error) << "at " << i;`
`1417`	`1416`	`}`
`@@ -1487,10 +1486,22 @@ TEST_F(gemm_gpu_tests, transpose_matmul_static_3d_f16) {`
`1487`	`1486`	`this->test_transpose_matmul_f16(3, false, false, /BMKN/{19, 37, 23, 29}, /input0_order/{0, 2, 1}, /input1_order/{1, 2, 0});`
`1488`	`1487`	`}`
`1489`	`1488`
	`1489`	`+TEST_F(gemm_gpu_tests, transpose_matmul_static_3d_f16_n32) {`
	`1490`	`+ this->test_transpose_matmul_f16(3, false, false, /BMKN/{1, 256, 32, 128}, /input0_order/{0, 1, 2}, /input1_order/{0, 2, 1}, 0.1);`
	`1491`	`+}`
	`1492`	`+`
`1490`	`1493`	`TEST_F(gemm_gpu_tests, transpose_matmul_static_3d_f32) {`
`1491`	`1494`	`this->test_transpose_matmul_f32(3, false, false, /BMKN/{19, 37, 23, 29}, /input0_order/{0, 2, 1}, /input1_order/{1, 2, 0});`
`1492`	`1495`	`}`
`1493`	`1496`
	`1497`	`+TEST_F(gemm_gpu_tests, transpose_matmul_static_3d_f32_n32) {`
	`1498`	`+ this->test_transpose_matmul_f32(3, false, false, /BMKN/{2, 128, 16, 256}, /input0_order/{0, 1, 2}, /input1_order/{0, 2, 1});`
	`1499`	`+}`
	`1500`	`+`
	`1501`	`+TEST_F(gemm_gpu_tests, transpose_matmul_static_3d_f32_n32_k_remainder) {`
	`1502`	`+ this->test_transpose_matmul_f32(3, false, false, /BMKN/{2, 128, 17, 256}, /input0_order/{0, 1, 2}, /input1_order/{0, 2, 1});`
	`1503`	`+}`
	`1504`	`+`
`1494`	`1505`	`TEST_F(gemm_gpu_tests, transpose_matmul_dynamic_4d_f16_unaligned) {`
`1495`	`1506`	`this->test_transpose_matmul_f16(4, true, false, /BMKN/{19, 37, 23, 29}, /input0_order/{0, 2, 3, 1}, /input1_order/{1, 2, 3, 0});`
`1496`	`1507`	`}`