Fully-featured Python script to automatically scrape books from Books to Scrape, export data to CSV by category, and download cover images.
- ✅ Scrapes all book categories
- ✅ Extracts titles, price, availability, rating, description, image
- ✅ Exports CSV files by category into the
output_data/
folder - ✅ Downloads cover images into optional subfolders
- ✅ Automatically navigates through pages (pagination)
git clone https://github.com/dim-gggl/Book_Scraper.git
cd Book_Scraper
Then, create a virtual environment:
python3 -m venv venv
source venv/bin/activate
And install the dependencies:
pip install -r requirements.txt
source venv/bin/activate
python3 main.py
Follow the instructions in the terminal menu.
📝 CSV files and images are automatically generated inside the scripts/output_data
folder.
Book_Scraper/
├── scripts/
│ ├── __init__.py
│ ├── phase_1.py
│ ├── phase_2.py
│ ├── phase_3.py
│ ├── phase_4.py
│ ├── utils.py
│ └── output_data/
│ ├── book1.csv
│ └── ...
├── __init__.py
├── main.py
├── README.md
└── requirements.txt
universal_product_code | title | price_including_tax | price_excluding_tax | number_available | category | review_rating |
---|---|---|---|---|---|---|
90fa61229261140a | Tipping the Velvet | £ 53.74 | £ 53.74 | In stock (20 available) | Historical Fiction | 1/5 |
- Learn HTML scraping with
BeautifulSoup
- Automate data collection/export/processing
- Prepare for more advanced projects like APIs or database interactions
- Consider refactoring into an OOP (Object-Oriented Programming) approach
- Improve the architecture to make it more modular
- Add a simple web interface using Flask
- Implement unit tests
- Add logging or a verbose mode
👤 Dimitri Gaggioli
Python Developer
- Python 3.12+
- BeautifulSoup
- Requests
- CSV, OS, re, urllib
Script Python complet pour scraper automatiquement les livres du site Books to Scrape, exporter les données en CSV par catégorie et télécharger les images des couvertures.
- ✅ Scraping de toutes les catégories de livres
- ✅ Récupération des titres, prix, stock, note, description, image
- ✅ Export CSV par catégorie dans un dossier
output_data/
- ✅ Téléchargement des images de couverture dans des sous-dossiers en option
- ✅ Navigation automatique entre les pages (pagination)
git clone https://github.com/dim-gggl/Book_Scraper.git
cd Book_Scraper
Puis installation d'un environnement virtuel :
python3 -m venv venv
source venv/bin/activate
Et installation des dépendances:
pip install -r requirements.txt
source venv/bin/activate
python3 main.py
Et laisse-toi guider par le menu du terminal.
📝 Les fichiers CSV et les images sont générés automatiquement dans le dossier scripts/output_data
.
Book_Scraper/
├── scripts/
│ ├── __init__.py
│ ├── phase_1.py
│ ├── phase_2.py
│ ├── phase_3.py
│ ├── phase_4.py
│ ├── utils.py
│ └── output_data/
│ ├── book1.csv
│ └── ...
├── __init__.py
├── main.py
├── README.md
└── requirements.txt
universal_product_code | title | price_including_tax | price_excluding_tax | number_available | category | review_rating |
---|---|---|---|---|---|---|
90fa61229261140a | Tipping the Velvet | £ 53.74 | £ 53.74 | In stock (20 available) | Historical Fiction | 1/5 |
- Apprentissage du scraping HTML avec
BeautifulSoup
- Automatisation de collecte/export/traitement de données
- Préparation à des projets plus ambitieux de type API ou intéractions avec des databases
- Envisager une refactorisation en P.O.O
- Améliorer l'architecture, plus modulaire
- Interface web simple (Flask)
- Ajout de tests unitaires
- Ajout de logs ou d’un mode
verbose
👤 Dimitri Gaggioli
Développeur Python ·
- Python 3.12+
- BeautifulSoup
- Requests
- CSV, OS, re, urllib
MIT — Faites-en bon usage.