Astashov I.V., 2024.
Репозиторий содержит проект с первичной предобработкой полученных данных, их разведочным анализом и обученной моделью, предсказывающую отклик клиента на промо банка.
Презентация ML - решения представлена в виде веб-приложения на платформе Streamlit.
Проект выполнен в рамках курса «Прикладной Python» магистерской программы НИУ ВШЭ «Машинное обучение и высоконагруженные системы».
- app.py: файл приложения streamlit
- models/model.py: скрипт для обучения модели классификатора CatBoost
- data/df_full.csv и trained_model.cbm: предобработанные данные и предобученная модель
- requirements.txt: файл зависимостей
Для прямого запуска streamlit локально:
$ python -m venv venv
$ source venv/bin/activate
$ pip install -r requirements.txt
$ streamlit run app.py
Открыть http://localhost:8501 для просмотра приложения.
$ docker build . -t streamlit-app:latest
$ docker run -it --rm -p '8501:8501' streamlit-app
Открыть http://localhost:8501 для просмотра приложения.
Предварительно собранные данные о клиентах data/*.csv
:
clients.csv
: демография, образование, социальный статус, семья и активы;close_loan.csv
: статус полученных кредитов;job.csv
: информация о работе;last_credit.csv
: информация о последнем кредите;loan.csv
: кредитная история;pens.csv
: статусы относительно пенсии;salary.csv
: информация о доходах;target.csv
: статус отклика на промо банка (целевой признак);work.csv
: статусы относительно работы.
В файле, данные были отчищены от дубликатов, пропусков и аномальных значений. Агрегированны по полученным и погашенным кредитам и объединены в одну таблицу. Проведен анализ, в следствии которого, был получен ответ на вопрос о том, какие факторы влияют на отклик клиентов на промо.
Дизайн репозитория частично заимстован: ссылка-1, ссылка-2. Используемые материалы: Stepik, Лекции HSE.