Чтобы не создавать текучку, мы отбираем мотивированных ребят с помощью тестовых заданий. Требуется выполнить одно из приведённых в списке ниже. Если у тебя нет знаний и опыта в ML, то мы всё равно рады тебе. Если ты пока не знаком с языком Python, то можешь выбрать книжки или курсы из roadmap, после чего точно справишься с заданием
Приведённые ниже задачи непростые, они требуют времени и сил, чтобы разобраться в теме и написать решение. Однако качественное выполнение такого задания будет хорошим первым пунктом в твоём резюме ML специалиста. На любом этапе можно задавать вопросы по возникающим трудностям
Решение предлагается оформить в виде github репозитория и прислать ссылку.
Обработка естественного языка - это область, благодаря которой сейчас есть отличные поисковики, чат-боты, хороший Т9, фильтрация спама и рекомендации в соц сетях. В качестве несложного задания предлагается ознакомиться с датасетом на соревновательной платформе kaggle.
В нём представлено около 10 категорий профессий, для каждой из которых приведено 30-50 конкретных специальностей и их описаний. Но у части данных не размечена категория профессии. Тебе нужно написать модель, которая будет автоматически подбирать наиболее подходящую под описание категорию. Больше подробностей есть на странице с датасетом
Часто машинное обучение воспринимают как множество подходов для предсказания простых численных данных. Не всегда нужно закапываться в картинки или разгребать гигабайты аудио датасетов, чтобы заниматься машинным обучением.
В качестве тестового предлагается предсказать популярность песни на Spotify по её характеристикам c помощью этого датасета. Можно начать с модели линейной регрессии
Компьюетрное зрение - это область, благодаря которой сейчас можно искать в интернете по картинке, улучшать качество фотографий, раскрашивать старые чёрно-белые фото, за доли секунды находить иголки в стоге сена, отслеживать положение предметов в пространстве и многое другое.
В качестве задания предлагается реализовать модель классификации изображений рукописных цифр. По этой задаче написано немало постов, которые могут помочь разобраться в библиотеках и подходах решений. Работу реализованной модели нужно продемонстрировать на похожем на MNIST датасете
Обработка голоса позволяет нам слушать как голосовые ассистенты отвечают за нас на звонки спамеров и троллят их, автоматизировать работу огромных колл-центров, подтверждать свою личность по голосу, распознавать речь и синтезировать её голосом другого человека.
В качестве задания предлагается найти или создать самостоятельно небольшой датасет с короткими записями голосов 3-5 человек, реализовать несложную модель для создания эмбеддингов голоса и показать качество работы этой модели. Прочитать подробнее про эмбеддинги можно в первой половине этого поста. В качестве основы модели создания эмбеддингов звука рекомендуется брать результаты процедуры mfcc. Для отображения эмбеддингов графически рекомендуется использовать t-SNE.
Обучение с подкреплением позволяет создавать ботов для игры в человеческие игры - от змейки до DoTA 2. В этой области модели выступают в роли игроков и обучаются достигать в своём симулированном мире наибольшей награды за свои действия.
В качестве тестового задания предлагается посадить ракету на луну... в LunarLander. Для этого нужно будет познакомиться с библиотекой openAI Gym и разобраться в подходе Deep Q Network
Рекомендаци преследуют нас повсюда - от рекламы до песен и новостей. Рекомендовать можно изображения, тексты, музыку - что угодно. В качестве тестового задания предлагается разобраться в датасете Movielens и простых моделях рекомендаций. Реализуй одну из моделей из проверь качество рекомендаций с помощью рекомендательных метрик.
Тогда пиши в тг @arqtty