Файл содержит данные о клиентах и о том, как они выплачивают выданные им кредиты. Необходимо выделить сегмент клиентов, которые попадают в просроченную задолженность.
Проведено исследование набора данных, датасет подготовлен к изучению, убраны пропущенные значения, лишние столбцы и категории и т.д. Исследованы взаимосвязи между переменными и выделены два сегмента с клиентами, которые просрочили задолженность и которые платят вовремя.
- Сегмент с клиентами с просроченной задолженностью (далее “должники”) крайне мало представлен в датасете - всего около 1% юзеров.
- Обнаружена статистически значимая взаимосвязь между полом и должниками. У женщин повышается вероятность просрочить задолженность.
- Для групп Задолженность - Наличие работодателя также найдена статистически значимая взаимосвязь. Должники скорее устроены на работу, чем нет.
- Клиенты с меньшим доходом вероятнее будут должниками, чем клиенты с высоким. Средний доход клиентов должников равен примерно 25 тыс., а платящих вовремя - 28 тыс.
- Молодые клиенты вероятнее могут просрочить платеж, чем клиенты постарше. Возраст должников распределился вокруг среднего в 52 года, а у тех, кто платит вовремя средний возраст 56 лет.
- Для мужчин вероятность просроченного долга вырастает, если у него есть работодатель. Для женщин эта вероятность возрастает незначительно.
- Определили статистически значимые предикторы, с помощью которых можно предсказывать переменную наличия просроченной задолженности. Эти переменные:
- Работодатель, есть/нет;
- Количество предоставленных телефонов;
- Количество предоставленных документов;
- Доход;
- Возраст;
- Пол;
- Признак Family - категории Женат/Замужем и Неофициальный брак (другие категории в этом признаке не являются статистически значимыми);
- Признак Education - категории Среднее и Среднее специальное;
- Признак Client_type - категория Пенсионер.
- Посчитав модель логистической регрессии, можно сказать о том, что мы можем предсказать будет ли клиент платить кредит вовремя или нет с точностью 99%.