Skip to content

metalebedenko/games_data_preprocessing

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Предобработка данных о видеоиграх (2000-2013)

О проекте

Проект посвящен подготовке датасета видеоигр к аналитике: очистке данных, приведению типов, обработке пропусков и дубликатов, а также формированию рабочего среза за период 2000-2013 годов.

Основной файл проекта: notebooks/games_data_preprocessing.ipynb.

Данные

Источник данных: datasets/new_games.csv.

В датасете содержатся:

  • название игры;
  • платформа;
  • год релиза;
  • жанр;
  • региональные продажи (na_sales, eu_sales, jp_sales, other_sales);
  • оценки критиков и пользователей;
  • возрастной рейтинг.

Что сделано

  1. Приведены названия столбцов к snake_case.
  2. Исправлены типы данных:
  • year_of_release -> Int64;
  • eu_sales, jp_sales, user_score -> float64 (с переводом нечисловых значений в NaN).
  1. Обработаны пропуски:
  • удалены строки с пропусками в name, year_of_release, genre;
  • eu_sales и jp_sales заполнены средними значениями по связке "платформа + год";
  • critic_score, user_score, rating оставлены без заполнения из-за высокой доли пропусков.
  1. Нормализованы категориальные признаки:
  • genre приведен к нижнему регистру;
  • rating приведен к верхнему регистру.
  1. Удалены дубликаты:
  • 235 полных дубликатов;
  • 1 дубликат по ключевым полям (name, platform, year_of_release, genre).
  1. Сформирован аналитический срез df_actual за 2000-2013 годы.
  2. Добавлены признаки категоризации оценок:
  • user_category;
  • critic_category.

Ключевые результаты

  • Исходный объем: 16956 строк.
  • После очистки: 16443 строки.
  • Удалено: 513 строк (3.03%).
  • Размер df_actual (2000-2013): 12780 строк.
  • Топ-7 платформ по числу релизов: PS2, DS, Wii, PSP, X360, PS3, GBA.

Структура репозитория

  • notebooks/games_data_preprocessing.ipynb - предобработка данных.
  • datasets/new_games.csv - исходный датасет.

Технологии

  • Python
  • pandas
  • Jupyter Notebook

Как запустить

  1. Создать виртуальное окружение и активировать его:
python3 -m venv .venv
source .venv/bin/activate
  1. Установить зависимости:
pip install -r requirements.txt
pip install -r requirements-dev.txt
  1. Запустить Jupyter:
jupyter notebook
  1. Открыть notebooks/games_data_preprocessing.ipynb и выполнить ячейки сверху вниз.

About

Предобработка датасета видеоигр (2000–2013): очистка, типы данных, пропуски/дубликаты и подготовка рабочего среза для аналитики.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors