Refactor ctc (#215)

anwai98 · web-flow · commit 66c30be0538f · 2024-02-09T17:08:42.000+01:00
diff --git a/scripts/datasets/check_ctc.py b/scripts/datasets/check_ctc.py
@@ -2,7 +2,7 @@
 from torch_em.util.debug import check_loader
 from torch_em.data.sampler import MinInstanceSampler
 
-ROOT = "/home/pape/Work/data/ctc/ctc-training-data"
+ROOT = "/scratch/projects/nim00007/sam/data/ctc/"
 
 
 # Some of the datasets have partial sparse labels:
@@ -11,14 +11,12 @@
 # Maybe depends on the split?!
 def check_ctc_segmentation():
     for name in CTC_URLS.keys():
-        if not name.startswith("DIC"):
-            continue
         print("Checking dataset", name)
         loader = get_ctc_segmentation_loader(
             ROOT, name, (1, 512, 512), 1, download=True,
             sampler=MinInstanceSampler()
         )
-        check_loader(loader, 8, instance_labels=True)
+        check_loader(loader, 8, plt=True, save_path="ctc.png")
 
 
 if __name__ == "__main__":
diff --git a/torch_em/data/datasets/ctc.py b/torch_em/data/datasets/ctc.py
@@ -40,11 +40,14 @@ def _require_ctc_dataset(path, dataset_name, download):
 
     data_path = os.path.join(path, dataset_name)
 
-    if not os.path.exists(data_path):
-        url, checksum = CTC_URLS[dataset_name], CTC_CHECKSUMS[dataset_name]
-        zip_path = os.path.join(path, f"{dataset_name}.zip")
-        util.download_source(zip_path, url, download, checksum=checksum)
-        util.unzip(zip_path, path, remove=True)
+    if os.path.exists(data_path):
+        return data_path
+
+    os.makedirs(data_path)
+    url, checksum = CTC_URLS[dataset_name], CTC_CHECKSUMS[dataset_name]
+    zip_path = os.path.join(path, f"{dataset_name}.zip")
+    util.download_source(zip_path, url, download, checksum=checksum)
+    util.unzip(zip_path, path, remove=True)
 
     return data_path
 
@@ -101,6 +104,8 @@ def get_ctc_segmentation_dataset(
         splits = glob(os.path.join(data_path, "*_GT"))
         splits = [os.path.basename(split) for split in splits]
         splits = [split.rstrip("_GT") for split in splits]
+    else:
+        splits = split
 
     image_path, label_path = _require_gt_images(data_path, splits)