Skip to content

EgorBaldezh/credit_analytics

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 

Repository files navigation

Credit analytics

Основная задача:

Файл содержит данные о клиентах и о том, как они выплачивают выданные им кредиты. Необходимо выделить сегмент клиентов, которые попадают в просроченную задолженность.

Что сделано:

Проведено исследование набора данных, датасет подготовлен к изучению, убраны пропущенные значения, лишние столбцы и категории и т.д. Исследованы взаимосвязи между переменными и выделены два сегмента с клиентами, которые просрочили задолженность и которые платят вовремя.

Выводы, полученные в ходе исследования:

  1. Сегмент с клиентами с просроченной задолженностью (далее “должники”) крайне мало представлен в датасете - всего около 1% юзеров.
  2. Обнаружена статистически значимая взаимосвязь между полом и должниками. У женщин повышается вероятность просрочить задолженность.
  3. Для групп Задолженность - Наличие работодателя также найдена статистически значимая взаимосвязь. Должники скорее устроены на работу, чем нет.
  4. Клиенты с меньшим доходом вероятнее будут должниками, чем клиенты с высоким. Средний доход клиентов должников равен примерно 25 тыс., а платящих вовремя - 28 тыс.
  5. Молодые клиенты вероятнее могут просрочить платеж, чем клиенты постарше. Возраст должников распределился вокруг среднего в 52 года, а у тех, кто платит вовремя средний возраст 56 лет.
  6. Для мужчин вероятность просроченного долга вырастает, если у него есть работодатель. Для женщин эта вероятность возрастает незначительно.
  7. Определили статистически значимые предикторы, с помощью которых можно предсказывать переменную наличия просроченной задолженности. Эти переменные:
    • Работодатель, есть/нет;
    • Количество предоставленных телефонов;
    • Количество предоставленных документов;
    • Доход;
    • Возраст;
    • Пол;
    • Признак Family - категории Женат/Замужем и Неофициальный брак (другие категории в этом признаке не являются статистически значимыми);
    • Признак Education - категории Среднее и Среднее специальное;
    • Признак Client_type - категория Пенсионер.
  8. Посчитав модель логистической регрессии, можно сказать о том, что мы можем предсказать будет ли клиент платить кредит вовремя или нет с точностью 99%.

About

Проект анализа клиентов с кредитами

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors