Репозиторий содержит данные и скрипты, посвященные исследованию по определению наиболее эффективного алгоритма классификации интентов среди методов классического машинного обучения и ансамблевых методов на основе реальных данных, собранных с промышленных, тестовых и демонстрационных проектов текстовых ботов и голосовых ассистентов. Репозиторий включает в себя:
- Собранный вручную датасет с JSON файлами интентов реальных проектов
- Предобработанный датасет с JSON файлами интентов реальных проектов
- Скрипты для парсинга и предобработки файлов
- Пайплайн проведения эксперимента: векторизация текста -> обучение модели -> оценка качества модели
- Таблица со значениями метрик качества моделей для каждого проекта в зависимости от примененной модели векторизации текста