nb prep

slegroux · slegroux · commit c042b54aae7d · 2024-12-20T22:23:36.000-08:00
diff --git a/nbs/audio.embeddings.ipynb b/nbs/audio.embeddings.ipynb
@@ -1,5 +1,15 @@
 {
  "cells": [
+  {
+   "cell_type": "raw",
+   "metadata": {},
+   "source": [
+    "---\n",
+    "skip_exec: true\n",
+    "skip_showdoc: true\n",
+    "---"
+   ]
+  },
   {
    "attachments": {},
    "cell_type": "markdown",
@@ -8,10 +18,21 @@
     "# Audio Embedders"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "TODO: figure out encoder from hugging face lib"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
    "outputs": [],
    "source": [
     "#| default_exp audio.embedding"
@@ -20,8 +41,21 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
-   "outputs": [],
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "The autoreload extension is already loaded. To reload it, use:\n",
+      "  %reload_ext autoreload\n"
+     ]
+    }
+   ],
    "source": [
     "#| hide\n",
     "%load_ext autoreload\n",
@@ -40,12 +74,16 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
    "outputs": [],
    "source": [
     "#| export\n",
-    "from encodec import EncodecModel\n",
-    "from encodec.utils import convert_audio\n",
+    "# from encodec import EncodecModel\n",
+    "# from encodec.utils import convert_audio\n",
     "\n",
     "import torchaudio\n",
     "import torch\n",
@@ -63,13 +101,45 @@
     "from plum import dispatch\n",
     "\n",
     "from nimrod.audio.utils import plot_waveform\n",
-    "from nimrod.utils import get_device"
+    "from nimrod.utils import get_device\n",
+    "\n",
+    "from datasets import load_dataset, Audio\n",
+    "from transformers import EncodecModel, AutoProcessor"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
+   "outputs": [
+    {
+     "ename": "AttributeError",
+     "evalue": "type object 'EncodecModel' has no attribute 'encodec_model_24khz'",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mAttributeError\u001b[0m                            Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[17], line 1\u001b[0m\n\u001b[0;32m----> 1\u001b[0m model \u001b[38;5;241m=\u001b[39m \u001b[43mEncodecModel\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mencodec_model_24khz\u001b[49m()\n",
+      "\u001b[0;31mAttributeError\u001b[0m: type object 'EncodecModel' has no attribute 'encodec_model_24khz'"
+     ]
+    }
+   ],
+   "source": [
+    "model = EncodecModel.encodec_model_24khz()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
    "outputs": [],
    "source": [
     "#| export\n",
@@ -127,8 +197,25 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
-   "outputs": [],
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
+   "outputs": [
+    {
+     "ename": "AttributeError",
+     "evalue": "type object 'EncodecModel' has no attribute 'encodec_model_24khz'",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mAttributeError\u001b[0m                            Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[12], line 5\u001b[0m\n\u001b[1;32m      1\u001b[0m wav, sr \u001b[38;5;241m=\u001b[39m torchaudio\u001b[38;5;241m.\u001b[39mload(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124m../data/audio/obama.wav\u001b[39m\u001b[38;5;124m\"\u001b[39m)\n\u001b[1;32m      2\u001b[0m \u001b[38;5;66;03m# wav, sr = torch.rand((1, 24000)), 24000\u001b[39;00m\n\u001b[1;32m      3\u001b[0m \u001b[38;5;66;03m# wav, sr = np.random.random((1, 24000)), 24000\u001b[39;00m\n\u001b[0;32m----> 5\u001b[0m encodec \u001b[38;5;241m=\u001b[39m \u001b[43mEncoDec\u001b[49m\u001b[43m(\u001b[49m\u001b[43mdevice\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;124;43m'\u001b[39;49m\u001b[38;5;124;43mcpu\u001b[39;49m\u001b[38;5;124;43m'\u001b[39;49m\u001b[43m)\u001b[49m\n\u001b[1;32m      6\u001b[0m codes \u001b[38;5;241m=\u001b[39m encodec(wav,sr)\n\u001b[1;32m      7\u001b[0m \u001b[38;5;28mprint\u001b[39m(\u001b[38;5;124mf\u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mwav: \u001b[39m\u001b[38;5;132;01m{\u001b[39;00mwav\u001b[38;5;241m.\u001b[39mshape\u001b[38;5;132;01m}\u001b[39;00m\u001b[38;5;124m, code: \u001b[39m\u001b[38;5;132;01m{\u001b[39;00mcodes\u001b[38;5;241m.\u001b[39mshape\u001b[38;5;132;01m}\u001b[39;00m\u001b[38;5;124m \u001b[39m\u001b[38;5;124m\"\u001b[39m)\n",
+      "Cell \u001b[0;32mIn[11], line 4\u001b[0m, in \u001b[0;36mEncoDec.__init__\u001b[0;34m(self, device)\u001b[0m\n\u001b[1;32m      3\u001b[0m \u001b[38;5;28;01mdef\u001b[39;00m \u001b[38;5;21m__init__\u001b[39m(\u001b[38;5;28mself\u001b[39m, device:\u001b[38;5;28mstr\u001b[39m\u001b[38;5;241m=\u001b[39m\u001b[38;5;124m'\u001b[39m\u001b[38;5;124mcpu\u001b[39m\u001b[38;5;124m'\u001b[39m):\n\u001b[0;32m----> 4\u001b[0m     \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mmodel \u001b[38;5;241m=\u001b[39m \u001b[43mEncodecModel\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mencodec_model_24khz\u001b[49m()\n\u001b[1;32m      5\u001b[0m     \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_device \u001b[38;5;241m=\u001b[39m device\n\u001b[1;32m      6\u001b[0m     \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mmodel\u001b[38;5;241m.\u001b[39mto(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_device)\n",
+      "\u001b[0;31mAttributeError\u001b[0m: type object 'EncodecModel' has no attribute 'encodec_model_24khz'"
+     ]
+    }
+   ],
    "source": [
     "wav, sr = torchaudio.load(\"../data/audio/obama.wav\")\n",
     "# wav, sr = torch.rand((1, 24000)), 24000\n",
@@ -148,7 +235,11 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
    "outputs": [],
    "source": [
     "plt.plot(codes[0][0])\n",
@@ -158,7 +249,11 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
    "outputs": [],
    "source": [
     "#| hide\n",
@@ -176,14 +271,11 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": []
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
    "outputs": [],
    "source": [
     "#| export\n",
@@ -227,7 +319,11 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
    "outputs": [],
    "source": [
     "encodec_extractor = EncoDecExtractor()\n",
@@ -240,7 +336,11 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
    "outputs": [],
    "source": [
     "# torch.set_num_threads(1)\n",
@@ -250,7 +350,11 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
    "outputs": [],
    "source": [
     "# feats = cuts.compute_and_store_features(extractor=Fbank(), storage_path=\"../recipes/tts/ljspeech/data/feats\")"
@@ -259,7 +363,11 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
    "outputs": [],
    "source": [
     "# storage_path = \"../.data/en/LJSpeech-1.1\"\n",
@@ -279,7 +387,11 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
    "outputs": [],
    "source": [
     "files = \"../data/en/LJSpeech-1.1/cuts_encodec.jsonl.gz\"\n",
@@ -291,12 +403,14 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
    "outputs": [],
    "source": [
     "### HF\n",
-    "from datasets import load_dataset, Audio\n",
-    "from transformers import EncodecModel, AutoProcessor\n",
     "\n",
     "# dummy dataset, however you can swap this with an dataset on the 🤗 hub or bring your own\n",
     "librispeech_dummy = load_dataset(\"hf-internal-testing/librispeech_asr_dummy\", \"clean\", split=\"validation\")\n",
@@ -321,7 +435,11 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
    "outputs": [],
    "source": [
     "# TO DO"
@@ -330,7 +448,11 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
    "outputs": [],
    "source": [
     "#| hide\n",
@@ -340,7 +462,11 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
+   "metadata": {
+    "vscode": {
+     "languageId": "python"
+    }
+   },
    "outputs": [],
    "source": []
   }
diff --git a/nbs/models.lm.ipynb b/nbs/models.lm.ipynb
@@ -50,8 +50,6 @@
     "from lightning.pytorch.callbacks import LearningRateFinder\n",
     "from lightning.pytorch.loggers import CSVLogger\n",
     "\n",
-    "\n",
-    "\n",
     "from matplotlib import pyplot as plt\n",
     "import matplotlib\n",
     "# plt.set_loglevel('INFO')\n",
@@ -73,9 +71,7 @@
     "\n",
     "import logging\n",
     "\n",
-    "logger = logging.getLogger(__name__)\n",
-    "# N_EPOCHS for training debuggging\n",
-    "ITER_MAX = 1"
+    "logger = logging.getLogger(__name__)\n"
    ]
   },
   {
@@ -84,6 +80,8 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "# N_EPOCHS for training debuggging\n",
+    "ITER_MAX = 1\n",
     "set_seed(42)"
    ]
   },
diff --git a/nimrod/audio/embedding.py b/nimrod/audio/embedding.py
@@ -3,9 +3,9 @@
 # %% auto 0
 __all__ = ['EncoDec', 'EncoDecConfig', 'EncoDecExtractor']
 
-# %% ../../nbs/audio.embeddings.ipynb 4
-from encodec import EncodecModel
-from encodec.utils import convert_audio
+# %% ../../nbs/audio.embeddings.ipynb 6
+# from encodec import EncodecModel
+# from encodec.utils import convert_audio
 
 import torchaudio
 import torch
@@ -25,7 +25,10 @@
 from .utils import plot_waveform
 from ..utils import get_device
 
-# %% ../../nbs/audio.embeddings.ipynb 5
+from datasets import load_dataset, Audio
+from transformers import EncodecModel, AutoProcessor
+
+# %% ../../nbs/audio.embeddings.ipynb 8
 class EncoDec():
     def __init__(self, device:str='cpu'):
         self.model = EncodecModel.encodec_model_24khz()
@@ -68,7 +71,7 @@ def sample_rate(self):
     def device(self):
         return self._device
 
-# %% ../../nbs/audio.embeddings.ipynb 12
+# %% ../../nbs/audio.embeddings.ipynb 14
 # https://lhotse.readthedocs.io/en/v0.6_ba/features.html#creating-custom-feature-extractor
 @dataclass
 class EncoDecConfig:
diff --git a/nimrod/models/lm.py b/nimrod/models/lm.py