Apply review comments regarding conversion between f16 and i8(u8)

xuchen-intel · xuchen-intel · commit 66ca73fb9e32 · 2024-08-07T09:08:07.000Z
diff --git a/src/plugins/intel_cpu/src/emitters/plugin/aarch64/jit_conversion_emitters.cpp b/src/plugins/intel_cpu/src/emitters/plugin/aarch64/jit_conversion_emitters.cpp
@@ -36,7 +36,8 @@ static void jit_convert_process(dnnl::impl::cpu::aarch64::jit_generator* h,
                     break;
                 case ov::element::i8:
                 case ov::element::u8:
-                    cvt_byte_to_i32<isa>(h, in_idxs, out_idxs, input_type.is_signed());
+                    cvt_byte_to_dbyte<isa>(h, in_idxs, out_idxs, input_type.is_signed());
+                    cvt_dbyte_to_i32<isa>(h, out_idxs, out_idxs, input_type.is_signed());
                     cvt_i32_to_f32<isa>(h, out_idxs, out_idxs);
                     break;
                 default:
@@ -56,7 +57,8 @@ static void jit_convert_process(dnnl::impl::cpu::aarch64::jit_generator* h,
                     break;
                 case ov::element::i8:
                 case ov::element::u8:
-                    cvt_byte_to_i32<isa>(h, in_idxs, out_idxs, input_type.is_signed());
+                    cvt_byte_to_dbyte<isa>(h, in_idxs, out_idxs, input_type.is_signed());
+                    cvt_dbyte_to_i32<isa>(h, out_idxs, out_idxs, input_type.is_signed());
                     break;
                 default:
                     OV_CPU_JIT_EMITTER_THROW("Unsupported input type: ", input_type.get_type_name());
@@ -75,9 +77,8 @@ static void jit_convert_process(dnnl::impl::cpu::aarch64::jit_generator* h,
                     break;
                 case ov::element::i8:
                 case ov::element::u8:
-                    cvt_byte_to_i32<isa>(h, in_idxs, out_idxs, input_type.is_signed());
-                    cvt_i32_to_f32<isa>(h, out_idxs, out_idxs);
-                    cvt_f32_to_f16<isa>(h, out_idxs, out_idxs);
+                    cvt_byte_to_dbyte<isa>(h, in_idxs, out_idxs, input_type.is_signed());
+                    cvt_dbyte_to_f16<isa>(h, out_idxs, out_idxs, input_type.is_signed());
                     break;
                 default:
                     OV_CPU_JIT_EMITTER_THROW("Unsupported input type: ", input_type.get_type_name());
@@ -88,20 +89,21 @@ static void jit_convert_process(dnnl::impl::cpu::aarch64::jit_generator* h,
             switch (input_type) {
                 case ov::element::f32:
                     cvt_f32_to_i32<isa>(h, in_idxs, out_idxs);
-                    cvt_i32_to_byte<isa>(h, out_idxs, out_idxs, output_type.is_signed(), is_saturated);
+                    cvt_i32_to_dbyte<isa>(h, out_idxs, out_idxs, output_type.is_signed(), is_saturated);
+                    cvt_dbyte_to_byte<isa>(h, out_idxs, out_idxs, output_type.is_signed(), is_saturated);
                     break;
                 case ov::element::i32:
-                    cvt_i32_to_byte<isa>(h, in_idxs, out_idxs, output_type.is_signed(), is_saturated);
+                    cvt_i32_to_dbyte<isa>(h, in_idxs, out_idxs, output_type.is_signed(), is_saturated);
+                    cvt_dbyte_to_byte<isa>(h, out_idxs, out_idxs, output_type.is_signed(), is_saturated);
                     break;
                 case ov::element::f16:
-                    cvt_f16_to_f32<isa>(h, in_idxs, out_idxs);
-                    cvt_f32_to_i32<isa>(h, out_idxs, out_idxs);
-                    cvt_i32_to_byte<isa>(h, out_idxs, out_idxs, output_type.is_signed(), is_saturated);
+                    cvt_f16_to_dbyte<isa>(h, in_idxs, out_idxs);
+                    cvt_dbyte_to_byte<isa>(h, out_idxs, out_idxs, output_type.is_signed(), is_saturated);
                     break;
                 case ov::element::i8:
                 case ov::element::u8:
-                    cvt_byte_to_i32<isa>(h, in_idxs, out_idxs, input_type.is_signed());
-                    cvt_i32_to_byte<isa>(h, out_idxs, out_idxs, output_type.is_signed(), is_saturated);
+                    cvt_byte_to_dbyte<isa>(h, in_idxs, out_idxs, input_type.is_signed());
+                    cvt_dbyte_to_byte<isa>(h, out_idxs, out_idxs, output_type.is_signed(), is_saturated);
                     break;
                 default:
                     OV_CPU_JIT_EMITTER_THROW("Unsupported input type: ", input_type.get_type_name());
diff --git a/src/plugins/intel_cpu/src/emitters/plugin/aarch64/jit_load_store_emitters.cpp b/src/plugins/intel_cpu/src/emitters/plugin/aarch64/jit_load_store_emitters.cpp
@@ -179,11 +179,13 @@ void jit_load_emitter::emit_isa(const std::vector<size_t> &in_idxs, const std::v
             load_byte<isa>(in_idxs, src_prc_ == dst_prc_ ? out_idxs : aux_vec_idxs);
             switch (dst_prc_) {
                 case ov::element::f32:
-                    cvt_byte_to_i32<isa>(h, aux_vec_idxs, aux_vec_idxs, src_prc_.is_signed());
+                    cvt_byte_to_dbyte<isa>(h, aux_vec_idxs, aux_vec_idxs, src_prc_.is_signed());
+                    cvt_dbyte_to_i32<isa>(h, aux_vec_idxs, aux_vec_idxs, src_prc_.is_signed());
                     cvt_i32_to_f32<isa>(h, aux_vec_idxs, out_idxs);
                     break;
                 case ov::element::i32:
-                    cvt_byte_to_i32<isa>(h, aux_vec_idxs, out_idxs, src_prc_.is_signed());
+                    cvt_byte_to_dbyte<isa>(h, aux_vec_idxs, aux_vec_idxs, src_prc_.is_signed());
+                    cvt_dbyte_to_i32<isa>(h, aux_vec_idxs, out_idxs, src_prc_.is_signed());
                     break;
                 case ov::element::i8:
                 case ov::element::u8:
@@ -375,10 +377,12 @@ void jit_store_emitter::emit_isa(const std::vector<size_t> &in_idxs, const std::
             switch (src_prc_) {
                 case ov::element::f32:
                     cvt_f32_to_i32<isa>(h, in_idxs, aux_vec_idxs);
-                    cvt_i32_to_byte<isa>(h, aux_vec_idxs, aux_vec_idxs, dst_prc_.is_signed(), is_saturated_);
+                    cvt_i32_to_dbyte<isa>(h, aux_vec_idxs, aux_vec_idxs, dst_prc_.is_signed(), is_saturated_);
+                    cvt_dbyte_to_byte<isa>(h, aux_vec_idxs, aux_vec_idxs, dst_prc_.is_signed(), is_saturated_);
                     break;
                 case ov::element::i32:
-                    cvt_i32_to_byte<isa>(h, in_idxs, aux_vec_idxs, dst_prc_.is_signed(), is_saturated_);
+                    cvt_i32_to_dbyte<isa>(h, in_idxs, aux_vec_idxs, dst_prc_.is_signed(), is_saturated_);
+                    cvt_dbyte_to_byte<isa>(h, aux_vec_idxs, aux_vec_idxs, dst_prc_.is_signed(), is_saturated_);
                     break;
                 case ov::element::i8:
                 case ov::element::u8:
diff --git a/src/plugins/intel_cpu/src/emitters/plugin/aarch64/utils.cpp b/src/plugins/intel_cpu/src/emitters/plugin/aarch64/utils.cpp
@@ -8,6 +8,13 @@ namespace ov {
 namespace intel_cpu {
 namespace aarch64 {
 
+// In aarch64, conversion between f16 and i16/u16 can be done with single instruction. The supported
+// conversion precicions are f32, i32, f16, i8 (byte), u8 (byte). If we introduce an intermediate
+// precision i16/u16 (dbyte) in the following graph. Then the conversion between each pair of
+// neighbors in this graph will be done with single instruction.
+// f16 - f32 - i32 - dbyte - byte
+//  |                   |
+//  - - - - - - - - - - -
 template <dnnl::impl::cpu::aarch64::cpu_isa_t isa>
 void cvt_f16_to_f32(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs) {
     using TReg = typename dnnl::impl::cpu::aarch64::cpu_isa_traits<isa>::TReg;
@@ -41,37 +48,83 @@ void cvt_i32_to_f32(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vecto
 }
 
 template <dnnl::impl::cpu::aarch64::cpu_isa_t isa>
-void cvt_i32_to_byte(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
+void cvt_i32_to_dbyte(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
                      bool is_signed, bool is_saturated) {
     using TReg = typename dnnl::impl::cpu::aarch64::cpu_isa_traits<isa>::TReg;
     TReg src = TReg(in_idxs[0]);
     TReg dst = TReg(out_idxs[0]);
     if (is_saturated) {
         if (is_signed) {
             h->sqxtn(dst.h4, src.s4);
-            h->sqxtn(dst.b8, dst.h8);
         } else {
             h->uqxtn(dst.h4, src.s4);
-            h->uqxtn(dst.b8, dst.h8);
         }
     } else {
         h->xtn(dst.h4, src.s4);
-        h->xtn(dst.b8, dst.h8);
     }
 }
 
 template <dnnl::impl::cpu::aarch64::cpu_isa_t isa>
-void cvt_byte_to_i32(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
+void cvt_dbyte_to_i32(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
                      bool is_signed) {
     using TReg = typename dnnl::impl::cpu::aarch64::cpu_isa_traits<isa>::TReg;
     TReg src = TReg(in_idxs[0]);
     TReg dst = TReg(out_idxs[0]);
+    if (is_signed) {
+        h->sxtl(dst.s4, src.h4);
+    } else {
+        h->uxtl(dst.s4, src.h4);
+    }
+}
+
+template <dnnl::impl::cpu::aarch64::cpu_isa_t isa>
+void cvt_f16_to_dbyte(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs) {
+    using TReg = typename dnnl::impl::cpu::aarch64::cpu_isa_traits<isa>::TReg;
+    TReg src = TReg(in_idxs[0]);
+    TReg dst = TReg(out_idxs[0]);
+    h->fcvtzs(dst.h, src.h);
+}
+
+template <dnnl::impl::cpu::aarch64::cpu_isa_t isa>
+void cvt_dbyte_to_f16(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
+                  bool is_signed) {
+    using TReg = typename dnnl::impl::cpu::aarch64::cpu_isa_traits<isa>::TReg;
+    TReg src = TReg(in_idxs[0]);
+    TReg dst = TReg(out_idxs[0]);
+    if (is_signed) {
+        h->scvtf(dst.h, src.h);
+    } else {
+        h->ucvtf(dst.h, src.h);
+    }
+}
+
+template <dnnl::impl::cpu::aarch64::cpu_isa_t isa>
+void cvt_dbyte_to_byte(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
+                     bool is_signed, bool is_saturated) {
+    using TReg = typename dnnl::impl::cpu::aarch64::cpu_isa_traits<isa>::TReg;
+    TReg src = TReg(in_idxs[0]);
+    TReg dst = TReg(out_idxs[0]);
+    if (is_saturated) {
+        if (is_signed) {
+            h->sqxtn(dst.b8, src.h8);
+        } else {
+            h->uqxtn(dst.b8, src.h8);
+        }
+    } else {
+        h->xtn(dst.b8, src.h8);
+    }
+}
+
+template <dnnl::impl::cpu::aarch64::cpu_isa_t isa>
+void cvt_byte_to_dbyte(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
+                  bool is_signed) {
+    using TReg = typename dnnl::impl::cpu::aarch64::cpu_isa_traits<isa>::TReg;
+    TReg src = TReg(in_idxs[0]);
+    TReg dst = TReg(out_idxs[0]);
     if (is_signed) {
         h->sxtl(dst.h8, src.b8);
-        h->sxtl(dst.s4, dst.h4);
     } else {
         h->uxtl(dst.h8, src.b8);
-        h->uxtl(dst.s4, dst.h4);
     }
 }
 
@@ -87,13 +140,28 @@ template void cvt_f32_to_i32<dnnl::impl::cpu::aarch64::asimd>(dnnl::impl::cpu::a
 template void cvt_i32_to_f32<dnnl::impl::cpu::aarch64::asimd>(dnnl::impl::cpu::aarch64::jit_generator* h,
                              const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs);
 
-template void cvt_i32_to_byte<dnnl::impl::cpu::aarch64::asimd>(dnnl::impl::cpu::aarch64::jit_generator* h,
-                              const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
-                              bool is_signed, bool is_saturation);
+template void cvt_i32_to_dbyte<dnnl::impl::cpu::aarch64::asimd>(dnnl::impl::cpu::aarch64::jit_generator* h,
+                             const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
+                             bool is_signed, bool is_saturation);
+
+template void cvt_dbyte_to_i32<dnnl::impl::cpu::aarch64::asimd>(dnnl::impl::cpu::aarch64::jit_generator* h,
+                             const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
+                             bool is_signed);
+
+template void cvt_f16_to_dbyte<dnnl::impl::cpu::aarch64::asimd>(dnnl::impl::cpu::aarch64::jit_generator* h,
+                             const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs);
+
+template void cvt_dbyte_to_f16<dnnl::impl::cpu::aarch64::asimd>(dnnl::impl::cpu::aarch64::jit_generator* h,
+                             const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
+                             bool is_signed);
+
+template void cvt_dbyte_to_byte<dnnl::impl::cpu::aarch64::asimd>(dnnl::impl::cpu::aarch64::jit_generator* h,
+                             const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
+                             bool is_signed, bool is_saturation);
 
-template void cvt_byte_to_i32<dnnl::impl::cpu::aarch64::asimd>(dnnl::impl::cpu::aarch64::jit_generator* h,
-                              const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
-                              bool is_signed);
+template void cvt_byte_to_dbyte<dnnl::impl::cpu::aarch64::asimd>(dnnl::impl::cpu::aarch64::jit_generator* h,
+                             const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
+                             bool is_signed);
 
 }   // namespace aarch64
 }   // namespace intel_cpu
diff --git a/src/plugins/intel_cpu/src/emitters/plugin/aarch64/utils.hpp b/src/plugins/intel_cpu/src/emitters/plugin/aarch64/utils.hpp
@@ -24,12 +24,27 @@ template <dnnl::impl::cpu::aarch64::cpu_isa_t isa>
 void cvt_i32_to_f32(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs);
 
 template <dnnl::impl::cpu::aarch64::cpu_isa_t isa>
-void cvt_i32_to_byte(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
-                     bool is_signed, bool is_saturated);
+void cvt_i32_to_dbyte(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
+                    bool is_signed, bool is_saturated);
 
 template <dnnl::impl::cpu::aarch64::cpu_isa_t isa>
-void cvt_byte_to_i32(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
-                     bool is_signed);
+void cvt_dbyte_to_i32(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
+                    bool is_signed);
+
+template <dnnl::impl::cpu::aarch64::cpu_isa_t isa>
+void cvt_f16_to_dbyte(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs);
+
+template <dnnl::impl::cpu::aarch64::cpu_isa_t isa>
+void cvt_dbyte_to_f16(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
+                    bool is_signed);
+
+template <dnnl::impl::cpu::aarch64::cpu_isa_t isa>
+void cvt_dbyte_to_byte(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
+                    bool is_signed, bool is_saturated);
+
+template <dnnl::impl::cpu::aarch64::cpu_isa_t isa>
+void cvt_byte_to_dbyte(dnnl::impl::cpu::aarch64::jit_generator* h, const std::vector<size_t> &in_idxs, const std::vector<size_t> &out_idxs,
+                    bool is_signed);
 
 }   // namespace aarch64
 }   // namespace intel_cpu