Проект посвящен подготовке датасета видеоигр к аналитике: очистке данных, приведению типов, обработке пропусков и дубликатов, а также формированию рабочего среза за период 2000-2013 годов.
Основной файл проекта: notebooks/games_data_preprocessing.ipynb.
Источник данных: datasets/new_games.csv.
В датасете содержатся:
- название игры;
- платформа;
- год релиза;
- жанр;
- региональные продажи (
na_sales,eu_sales,jp_sales,other_sales); - оценки критиков и пользователей;
- возрастной рейтинг.
- Приведены названия столбцов к
snake_case. - Исправлены типы данных:
year_of_release->Int64;eu_sales,jp_sales,user_score->float64(с переводом нечисловых значений вNaN).
- Обработаны пропуски:
- удалены строки с пропусками в
name,year_of_release,genre; eu_salesиjp_salesзаполнены средними значениями по связке "платформа + год";critic_score,user_score,ratingоставлены без заполнения из-за высокой доли пропусков.
- Нормализованы категориальные признаки:
genreприведен к нижнему регистру;ratingприведен к верхнему регистру.
- Удалены дубликаты:
- 235 полных дубликатов;
- 1 дубликат по ключевым полям (
name,platform,year_of_release,genre).
- Сформирован аналитический срез
df_actualза 2000-2013 годы. - Добавлены признаки категоризации оценок:
user_category;critic_category.
- Исходный объем: 16956 строк.
- После очистки: 16443 строки.
- Удалено: 513 строк (3.03%).
- Размер
df_actual(2000-2013): 12780 строк. - Топ-7 платформ по числу релизов: PS2, DS, Wii, PSP, X360, PS3, GBA.
notebooks/games_data_preprocessing.ipynb- предобработка данных.datasets/new_games.csv- исходный датасет.
- Python
- pandas
- Jupyter Notebook
- Создать виртуальное окружение и активировать его:
python3 -m venv .venv
source .venv/bin/activate- Установить зависимости:
pip install -r requirements.txt
pip install -r requirements-dev.txt- Запустить Jupyter:
jupyter notebook- Открыть
notebooks/games_data_preprocessing.ipynbи выполнить ячейки сверху вниз.