roll-back

raytrun · raytrun · commit 1e2eac6a032b · 2025-01-16T09:28:02.000Z
diff --git a/llm2clip/run.sh b/llm2clip/run.sh
@@ -1,22 +1,23 @@
-MODEL=EVA02-CLIP-L-14
+MODEL=EVA02-CLIP-L-14-336
 PRETRAINED=eva_clip
-python -m torch.distributed.launch --nproc_per_node=2 \
+python -m torch.distributed.launch --nproc_per_node=8 \
 	--use_env training/main.py \
         --enable-deepspeed \
         --grad-checkpointing \
         --name="T_vitl336_Rcc12mR_Rcc3m_4ep" \
         --save-frequency 1  \
         --zeroshot-frequency 1 \
-        --report-to="" \
+        --report-to="tensorboard, wandb" \
         --wandb-project-name="LLM2CLIP" \
         --wandb-notes="EVA02-CLIP-L-14-336" \
-        --train-data-list "/home/aiscuser/LLM2CLIP/llm2clip/data/cc3m/{00..00004}.tar" \
-        --train-num-samples-list 2873538  \
+        --train-data-list "data/cc3m/cc3m-train-{00..0287}.tar;data/cc12m/cc12m-train-{00..1001}.tar" \
+        --train-num-samples-list 2873538  10000225 \
+        --eval-data-file=training/eval_datasets.yaml \
         --pretrained=${PRETRAINED} \
         --dataset-resampled \
         --precision "fp16" \
         --warmup 0 \
-        --batch-size=16 \
+        --batch-size=512 \
         --eval-batch-size=1024 \
         --log-every-n-steps 50 \
         --epochs=20 \
@@ -31,7 +32,7 @@ python -m torch.distributed.launch --nproc_per_node=2 \
         --visual-ld=0.85 \
         --grad-clip-norm=5.0 \
         --smoothing=0. \
-        --workers=1 \
+        --workers=8 \
         --model=${MODEL} \
         --seed 4096 \
         --gather-with-grad \