add eval data

raytrun · raytrun · commit 71839f1f9ac7 · 2025-01-17T07:25:00.000Z
diff --git a/README.md b/README.md
@@ -61,15 +61,25 @@ Stay tuned for updates on pretrained models and datasets, which will be made ava
 ## 💻 Installation Guide
 
 1. **Create the environment**:
-
    ```bash
    conda create -n llm2clip python=3.8
    conda activate llm2clip
    pip install -r requirements.txt
    ```
-2. **Data Preparation**:
+2. **Data Preparation for LLM2CLIP**:
+   
+   ```bash
+   cd llm2clip/data
 
-   *(Coming Soon)*
+   # training datasets
+   DATASET=cc3m #options: "cc3m", "cc12m", "yfcc15m"
+   bash download_dataset.sh $DATASET
+   python extract_embedding.py $DATASET
+
+   # eval datasets
+   bash setup_eval_datasets.sh
+   python extract_eval_embedding.py
+   ```
 
 3. **🔥 Training**:
 
diff --git a/llm2clip/data/README.md b/llm2clip/data/README.md
@@ -0,0 +1,11 @@
+## Train
+   ```bash
+   $DATASET=cc3m #options: "cc3m", "cc12m", "yfcc15m"
+   bash download_dataset.sh $DATASET
+   python extract_embedding.py $DATASET
+   ```
+## Eval
+   ```bash
+   bash setup_eval_datasets.sh
+   python extract_eval_embedding.py
+   ```
diff --git a/llm2clip/data/extract_eval_embedding.py b/llm2clip/data/extract_eval_embedding.py
@@ -0,0 +1,154 @@
+import os
+import json
+import torch
+import logging
+from llm2vec import LLM2Vec
+from typing import List, Dict, Any
+from transformers import AutoModel, AutoConfig, AutoTokenizer
+
+os.environ["CUDA_VISIBLE_DEVICES"] = "0"
+
+logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
+
+CONFIG = {
+    "llm_model_name": "microsoft/LLM2CLIP-Llama-3-8B-Instruct-CC-Finetuned",
+    "flickr": {
+        "ann_path": "eval_data/flickr30k/test.json",
+        "root": "eval_data/flickr30k/",
+        "save_filename": "flickr30k_8B_llm_features.dpt"
+    },
+    "coco": {
+        "ann_path": "eval_data/coco/coco_karpathy_test.json",
+        "root": "eval_data/coco/",
+        "save_filename": "coco_8B_llm_features.dpt"
+    },
+    "sharegpt4v": {
+        "path": "eval_data/sharegpt4v/share-captioner_coco_lcs_sam_1246k_1107.json",
+        "ann_path": "eval_data/sharegpt4v/validation_1k.json",
+        "root": "eval_data/sharegpt4v/",
+        "save_filename": "sv_8B_llm_features.dpt",
+        "total_len": 1000
+    },
+    "urban1k": {
+        "ann_path": "eval_data/Urban1k/test.json",
+        "root": "eval_data/Urban1k",
+        "save_filename": "urban1k_8B_llm_features.dpt"
+    },
+    "docci": {
+        "path": "eval_data/docci/docci_descriptions.jsonlines",
+        "ann_path": "eval_data/docci/test.json",
+        "root": "eval_data/docci",
+        "save_filename": "docci_8B_llm_features.dpt"
+    }
+}
+
+def load_json(file_path: str) -> List[Dict[str, Any]]:
+    try:
+        with open(file_path, 'r') as f:
+            return json.load(f)
+    except Exception as e:
+        logging.error(f"Failed to load JSON file {file_path}: {e}")
+        raise
+
+def save_embeddings(embeddings: torch.Tensor, save_path: str) -> None:
+    try:
+        torch.save(embeddings, save_path)
+        logging.info(f"Embeddings saved to {save_path}")
+    except Exception as e:
+        logging.error(f"Failed to save embeddings to {save_path}: {e}")
+        raise
+
+def process_multi_texts_dataset(data: List[Dict[str, Any]], llm_model: LLM2Vec, save_path: str) -> None:
+    texts = [caption for item in data for caption in item['caption']]
+    with torch.no_grad():
+        embeddings = llm_model.encode(texts, convert_to_tensor=True, batch_size=196)
+    
+    texts_num = len(data[0]['caption'])
+    embeddings = embeddings.view(-1, texts_num, embeddings.size(-1))
+    save_embeddings(embeddings, save_path)
+    
+def process_dataset(texts: List, llm_model: LLM2Vec, save_path: str) -> None:
+    with torch.no_grad():
+        embeddings = llm_model.encode(texts, convert_to_tensor=True, batch_size=128)
+    save_embeddings(embeddings, save_path)
+
+def flickr(llm_model: LLM2Vec) -> None:
+    config = CONFIG["flickr"]
+    data = load_json(config["ann_path"])
+    save_path = os.path.join(config["root"], config["save_filename"])
+    process_multi_texts_dataset(data, llm_model, save_path)
+
+def coco(llm_model: LLM2Vec) -> None:
+    config = CONFIG["coco"]
+    data = load_json(config["ann_path"])
+    save_path = os.path.join(config["root"], config["save_filename"])
+    process_multi_texts_dataset(data, llm_model, save_path)
+
+def sharegpt4v(llm_model: LLM2Vec) -> None:
+    config = CONFIG["sharegpt4v"]
+    data = load_json(config["path"])[:config["total_len"]]
+    captions = []
+    for it in data:
+        dic = {}
+        dic['caption'] = it['conversations'][1]['value']
+        dic['image'] = it['image']
+        captions.append(dic)
+    
+    json.dump(captions, open(config['ann_path'], 'w'))
+    
+    texts = [item['caption'] for item in captions]
+    save_path = os.path.join(config["root"], config["save_filename"])
+    process_dataset(texts, llm_model, save_path)
+    
+
+def urban1k(llm_model: LLM2Vec) -> None:
+    config = CONFIG["urban1k"]
+    eval_data = []
+    for i in range(1, 1001):
+        caption_path = os.path.join(config["root"], f'caption/{i}.txt')
+        image_path = os.path.join(config["root"], f'image/{i}.jpg')
+        caption = open(caption_path, 'r').readlines()[0]
+        eval_data.append({'caption': caption, 'image': image_path})
+    
+    json.dump(eval_data, open(config['ann_path'], 'w'))
+    
+    texts = [item['caption'] for item in eval_data]
+    save_path = os.path.join(config["root"], config["save_filename"])
+    process_dataset(texts, llm_model, save_path)
+
+def docci(llm_model: LLM2Vec) -> None:
+    config = CONFIG["docci"]
+    data = open(config["path"], 'r').readlines()
+    eval_data = []
+    for line in data:
+        dic = json.loads(line)
+        if dic['split'] == "test":
+            eval_data.append({'caption': dic['description'], 'image': dic['image_file']})
+    
+    json.dump(eval_data, open(config['ann_path'], 'w'))
+    
+    texts = [item['caption'] for item in eval_data]
+    save_path = os.path.join(config["root"], config["save_filename"])
+    process_dataset(texts, llm_model, save_path)
+
+def main() -> None:
+    llm_model_name = CONFIG["llm_model_name"]
+    config = AutoConfig.from_pretrained(llm_model_name, trust_remote_code=True)
+    llm_model = AutoModel.from_pretrained(
+        llm_model_name,
+        torch_dtype=torch.bfloat16,
+        config=config,
+        trust_remote_code=True,
+    )
+    tokenizer = AutoTokenizer.from_pretrained(llm_model_name)
+    llm_model.config._name_or_path = "meta-llama/Meta-Llama-3-8B-Instruct"
+    model = LLM2Vec(llm_model, tokenizer, pooling_mode="mean", max_length=512, doc_max_length=512)
+    
+    flickr(model)
+    coco(model)
+    sharegpt4v(model)
+    urban1k(model)
+    docci(model)
+
+if __name__ == '__main__':
+    main()
diff --git a/llm2clip/data/setup_eval_datasets.sh b/llm2clip/data/setup_eval_datasets.sh
@@ -0,0 +1,27 @@
+#!/bin/bash
+
+echo "flickr30k"
+mkdir -p eval_data/flickr30k/
+wget https://storage.googleapis.com/sfr-vision-language-research/datasets/flickr30k_test.json -O eval_data/flickr30k/test.json
+mkdir -P eval_data/flickr30k/flickr30k-images
+
+echo "coco"
+mkdir -p eval_data/coco/
+wget https://storage.googleapis.com/sfr-vision-language-research/datasets/coco_karpathy_test.json -P eval_data/coco/
+mkdir eval_data/coco/val2014
+
+echo "sharegpt4v"
+mkdir -p eval_data/sharegpt4v/
+wget https://huggingface.co/datasets/Lin-Chen/ShareGPT4V/resolve/main/share-captioner_coco_lcs_sam_1246k_1107.json -P eval_data/sharegpt4v/
+
+echo "Urban1k"
+mkdir -p eval_data/
+wget https://huggingface.co/datasets/BeichenZhang/Urban1k/resolve/main/Urban1k.zip -P eval_data/
+unzip eval_data/Urban1k.zip -d eval_data/
+
+echo "docci"
+mkdir -p eval_data/docci/
+wget  https://storage.googleapis.com/docci/data/docci_descriptions.jsonlines -P eval_data/docci/
+
+echo "Please download the images of flickr30k, coco2014, sharegpt4v and docci manually, and then change the paths in the eval_datasets.yaml accordingly"
+
diff --git a/llm2clip/run.sh b/llm2clip/run.sh
@@ -10,7 +10,7 @@ python -m torch.distributed.launch --nproc_per_node=8 \
         --report-to="tensorboard, wandb" \
         --wandb-project-name="LLM2CLIP" \
         --wandb-notes="EVA02-CLIP-L-14-336" \
-        --train-data-list "data/cc3m/cc3m-train-{00..0287}.tar;data/cc12m/cc12m-train-{00..1001}.tar" \
+        --train-data-list "data/cc3m/{00..00287}.tar;data/cc12m/{00..01001}.tar" \
         --train-num-samples-list 2873538  10000225 \
         --eval-data-file=training/eval_datasets.yaml \
         --pretrained=${PRETRAINED} \
diff --git a/llm2clip/training/eval_datasets.yaml b/llm2clip/training/eval_datasets.yaml
@@ -1,25 +1,25 @@
 
 - name: ret_flickr
-  json_file: eval_data/flickr30k/annotations/test.json
-  img_root: eval_data/flickr30k/
-  text_feature_path: eval_data/flickr30k/flickr30k_llm2vec_0923_features.dpt
+  json_file: data/eval_data/flickr30k/annotations/test.json
+  img_root: data/eval_data/flickr30k/
+  text_feature_path: data/eval_data/flickr30k/flickr30k_8B_llm_features.dpt
 
 - name: ret_coco
-  json_file: eval_data/coco/annotations/coco_karpathy_test.json
-  img_root: eval_data/coco/images/
-  text_feature_path: eval_data/coco/coco_llm2vec_0923_features.dpt
+  json_file: data/eval_data/coco/annotations/coco_karpathy_test.json
+  img_root: data/eval_data/coco/images/
+  text_feature_path: data/eval_data/coco/coco_8B_llm_features.dpt
 
 - name: sharegpt4v
-  json_file: eval_data/sharegpt4v/annotations/validation_1k.json
-  img_root: eval_data/sharegpt4v/
-  text_feature_path:  eval_data/sharegpt4v/sv_llm2vec_0923_features.dpt
+  json_file: data/eval_data/sharegpt4v/annotations/validation_1k.json
+  img_root: data/eval_data/sharegpt4v/
+  text_feature_path:  data/eval_data/sharegpt4v/sv_8B_llm_features.dpt
  
 - name: Urban1k
-  json_file: eval_data/Urban1k/annotations/test.json
-  img_root:  eval_data/Urban1k/
-  text_feature_path:  eval_data/Urban1k/urban1k_llm2vec_0923_features.dpt
+  json_file: data/eval_data/Urban1k/annotations/test.json
+  img_root:  data/eval_data/Urban1k/
+  text_feature_path:  data/eval_data/Urban1k/urban1k_8B_llm_features.dpt
 
 - name: DOCCI
-  json_file: eval_data/docci/test.json
-  img_root:  eval_data/docci/images/
-  text_feature_path:  eval_data/docci/docci_llm2vec_0923_features.dpt
+  json_file: data/eval_data/docci/test.json
+  img_root:  data/eval_data/docci/images/
+  text_feature_path:  data/eval_data/docci/docci_8B_llm_features.dpt
diff --git a/llm2clip/training/evaluate_retrieval.py b/llm2clip/training/evaluate_retrieval.py