Этот проект представляет собой парсер для сайта glavsnab.net
, разработанный для извлечения данных о товарах из категории "Зимние товары". Парсер эффективно собирает информацию о товарах, обрабатывая необходимое количество страниц каталога. Результаты парсинга сохраняются в двух удобных форматах: JSON
и CSV
.
- Извлечение данных о товарах из категории "Зимние товары" на сайте glavsnab.net. Обрабатывает все страницы пагинации.
- Извлечение следующих данных для каждого товара:
sku
(артикул товара)name
(название товара)link
(ссылка на страницу товара)price
(цена товара) Если цена не указана на сайте, в поле записывается"По запросу"
.
- Поддержка форматов вывода
JSON
иCSV
. Файлы сохраняются какglavsnab.json
иglavsnab.csv
. - Использование библиотеки
requests
для загрузки страниц иBeautifulSoup
для парсингаHTML
. - Структурирование данных с помощью dataclass для повышения читаемости и организации кода.
- Установите необходимые библиотеки:
pip install requests beautifulsoup4
- Запустите скрипт:
main.py
. - Результаты: Файлы
glavsnab.json
иglavsnab.csv
будут созданы в той же директории, где находится скрипт.
This project is a parser for the glavsnab.net
website, designed to extract product data from the "Winter goods" category. The parser efficiently collects product information, processing up to 672 pages of the catalog. Parsing results are saved in two convenient formats: JSON
and CSV
.
- Extraction of product data from the "Winter goods" category on the glavsnab.net website. Processes all pagination pages.
- Extraction of the following data for each product:
- sku (product SKU)
- name (product name)
- link (link to the product page)
- price (product price) If the price is not specified on the website, "On request" is written to the field.
- Support for JSON and CSV output formats. Files are saved as glavsnab.json and glavsnab.csv.
- Uses the requests library for downloading pages and BeautifulSoup for parsing HTML.
- Data structuring using dataclass for improved readability and code organization.
- Install necessary libraries:
pip install requests beautifulsoup4
- Run the script:
main.py
. - Results: The
glavsnab.json
andglavsnab.csv
files will be created in the same directory as the script.