Набор данных: http://labrosa.ee.columbia.edu/millionsong/tasteprofile
Для запуска необходимо положить рядом файл с данными "train_triplets.txt"
Детали:
- Данная рекомендательная система Item-Based Top-N, построена на всём наборе данных. Построение занимает порядка 40-50 минут(из них минут 15-20 происходит только чтение данных). Для быстрого запуска можно выставить например users_limit = 1000
- Проведено преобразования количества прослушиваний в рейтинг от 0 до 5 путём логарифмирования, и ограничения сверху в 5
- Проведена оценка качества полученной системы: RMSE = 0.89. Для сравнения, если использовать просто средний рейтинг для предсказания, то RMSE = 0.98. В основном размер ошибки колеблется около 0, в остальных случаях система чаще занижает рейтинг.