removed another source of individual importances not summing up to one

sfalkner · sfalkner · commit 93bb8922a8da · 2017-03-26T21:17:04.000+02:00
diff --git a/fANOVA demo.ipynb b/fANOVA demo.ipynb
@@ -9,9 +9,9 @@
    "outputs": [],
    "source": [
     "import sys\n",
-    "sys.path.append('/ihome/sfalkner/repositories/github/random_forest_run/build')\n",
-    "sys.path.append('/ihome/sfalkner/repositories/github/ConfigSpace')\n",
-    "sys.path.append('/ihome/sfalkner/repositories/github/fanova')\n",
+    "sys.path.append('/home/sfalkner/repositories/github/random_forest_run/build')\n",
+    "sys.path.append('/home/sfalkner/repositories/github/ConfigSpace')\n",
+    "sys.path.append('/home/sfalkner/repositories/github/fanova')\n",
     "\n",
     "import numpy as np\n",
     "import matplotlib.pyplot as plt\n",
@@ -30,8 +30,8 @@
    "outputs": [],
    "source": [
     "# load data\n",
-    "X_full = np.loadtxt('/ihome/sfalkner/repositories/github/random_forest_run/test_data_sets/online_lda_features.csv', delimiter=',')\n",
-    "y_full = np.loadtxt('/ihome/sfalkner/repositories/github/random_forest_run/test_data_sets/online_lda_responses.csv', delimiter=',')\n",
+    "X_full = np.loadtxt('/home/sfalkner/repositories/github/random_forest_run/test_data_sets/online_lda_features.csv', delimiter=',')\n",
+    "y_full = np.loadtxt('/home/sfalkner/repositories/github/random_forest_run/test_data_sets/online_lda_responses.csv', delimiter=',')\n",
     "\n",
     "\n",
     "#n_samples = X_full.shape[0]//2\n",
@@ -52,17 +52,6 @@
     "f = fanova.fANOVA(X,y,  n_trees=32,bootstrapping=True)"
    ]
   },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {
-    "collapsed": false
-   },
-   "outputs": [],
-   "source": [
-    "f.quantify_importance(0)"
-   ]
-  },
   {
    "cell_type": "markdown",
    "metadata": {
@@ -188,7 +177,7 @@
    "source": [
     "f.set_cutoffs((-np.inf, np.inf))            #just reset the cutoffs\n",
     "print(f.trees_total_variance)\n",
-    "f.set_cutoffs((0,2000))\n",
+    "#f.set_cutoffs((0,2000))\n",
     "print(f.trees_total_variance)\n",
     "\n",
     "importance_dict = f.quantify_importance([0,1,2])    "
@@ -245,9 +234,7 @@
     "\n",
     "data=np.hstack([X_full,y_full[:,None]])\n",
     "np.savetxt('/tmp/tmp_data.csv', data, delimiter=',')\n",
-    "f = FanovaFromCSV(\"/tmp/tmp_data.csv\")\n",
-    "\n",
-    "# fails in IPython, but might work in a script -> TODO!"
+    "f = FanovaFromCSV(\"/tmp/tmp_data.csv\")\n"
    ]
   },
   {
@@ -276,7 +263,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.6.0"
+   "version": "3.4.5"
   }
  },
  "nbformat": 4,
diff --git a/fanova/fanova.py b/fanova/fanova.py
@@ -89,7 +89,6 @@ def __init__(self, X, Y, config_space=None,
             else:
                 pcs[i] = (hp.lower, hp.upper)
 
-        print(pcs)
         # set forest options
         forest = reg.fanova_forest()
         forest.options.num_trees = n_trees
@@ -108,7 +107,7 @@ def __init__(self, X, Y, config_space=None,
             rng = reg.default_random_engine()
         else:
             rng = reg.default_random_engine(seed)
-        data = reg.data_container(X.shape[1])
+        data = reg.default_data_container(X.shape[1])
 
         for i, (mn,mx) in enumerate(pcs):
             if(np.isnan(mx)):
@@ -142,8 +141,16 @@ def __init__(self, X, Y, config_space=None,
             midpoints =  []
             for i, split_vals in enumerate(tree_split_values):
                 if np.isnan(pcs[i][1]): # categorical parameter
-                    midpoints.append(split_vals)
-                    sizes.append( np.ones(len(split_vals)))
+                    # check if the tree actually splits on this parameter
+                    if len(split_vals) > 0:
+                        midpoints.append(split_vals)
+                        sizes.append( np.ones(len(split_vals)))
+                    # if not, simply append 0 as the value with the number
+                    # of categories as the size, that way this parameter will
+                    # get 0 importance from this tree.
+                    else:
+                        midpoints.append((0,))
+                        sizes.append((pcs[i][0],))
                 else:
                     # add bounds to split values
                     sv = np.array([pcs[i][0]] + list(split_vals) + [pcs[i][1]])
@@ -240,7 +247,7 @@ def __compute_marginals(self, dimensions):
             for i, (m, s) in enumerate(zip(prod_midpoints, prod_sizes)):
                 sample[list(dimensions)] = list(m)
                 ls = self.the_forest.marginal_prediction_stat_of_tree(tree_idx, sample.tolist())
-                print(sample, ls.mean())
+                #print(sample, ls.mean())
                 if not np.isnan(ls.mean()):
                     stat.push( ls.mean(), np.prod(np.array(s)) * ls.sum_of_weights())
             
@@ -272,12 +279,12 @@ def quantify_importance(self, dimensions):
         for k in range(1, len(dimensions)+1):
             for sub_dims in it.combinations(dimensions, k):
                 importance_dict[sub_dims] = {}
-                fractions_total = [self.V_U_total[sub_dims][t]/self.trees_total_variance[t] for t in range(self.n_trees)]
-                fractions_individual = [self.V_U_individual[sub_dims][t]/self.trees_total_variance[t] for t in range(self.n_trees)]
-                # TODO: clean NANs here and catch zero variance in a tree!
-                
-                importance_dict[sub_dims]['individual importance'] = np.mean(fractions_individual)
-                importance_dict[sub_dims]['total importance'] = np.mean(fractions_total)
+                fractions_total = np.array([self.V_U_total[sub_dims][t]/self.trees_total_variance[t] for t in range(self.n_trees)])
+                fractions_individual = np.array([self.V_U_individual[sub_dims][t]/self.trees_total_variance[t] for t in range(self.n_trees)])
+                # clean NANs here to catch zero variance in a trees
+                indices = np.logical_and(~np.isnan(fractions_individual), ~np.isnan(fractions_total))
+                importance_dict[sub_dims]['individual importance'] = np.mean(fractions_individual[indices])
+                importance_dict[sub_dims]['total importance'] = np.mean(fractions_total[indices])
                 
         return(importance_dict)