Skip to content

Latest commit

 

History

History
47 lines (24 loc) · 7.42 KB

File metadata and controls

47 lines (24 loc) · 7.42 KB

Как попасть к нам

Чтобы не создавать текучку, мы отбираем мотивированных ребят с помощью тестовых заданий. Требуется выполнить одно из приведённых в списке ниже. Если у тебя нет знаний и опыта в ML, то мы всё равно рады тебе. Если ты пока не знаком с языком Python, то можешь выбрать книжки или курсы из roadmap, после чего точно справишься с заданием

Приведённые ниже задачи непростые, они требуют времени и сил, чтобы разобраться в теме и написать решение. Однако качественное выполнение такого задания будет хорошим первым пунктом в твоём резюме ML специалиста. На любом этапе можно задавать вопросы по возникающим трудностям

Решение предлагается оформить в виде github репозитория и прислать ссылку.

Задания

1. Natural Language Processing

Обработка естественного языка - это область, благодаря которой сейчас есть отличные поисковики, чат-боты, хороший Т9, фильтрация спама и рекомендации в соц сетях. В качестве несложного задания предлагается ознакомиться с датасетом на соревновательной платформе kaggle.

В нём представлено около 10 категорий профессий, для каждой из которых приведено 30-50 конкретных специальностей и их описаний. Но у части данных не размечена категория профессии. Тебе нужно написать модель, которая будет автоматически подбирать наиболее подходящую под описание категорию. Больше подробностей есть на странице с датасетом

2. Classic ML

Часто машинное обучение воспринимают как множество подходов для предсказания простых численных данных. Не всегда нужно закапываться в картинки или разгребать гигабайты аудио датасетов, чтобы заниматься машинным обучением.

В качестве тестового предлагается предсказать популярность песни на Spotify по её характеристикам c помощью этого датасета. Можно начать с модели линейной регрессии

3. Computer Vision

Компьюетрное зрение - это область, благодаря которой сейчас можно искать в интернете по картинке, улучшать качество фотографий, раскрашивать старые чёрно-белые фото, за доли секунды находить иголки в стоге сена, отслеживать положение предметов в пространстве и многое другое.

В качестве задания предлагается реализовать модель классификации изображений рукописных цифр. По этой задаче написано немало постов, которые могут помочь разобраться в библиотеках и подходах решений. Работу реализованной модели нужно продемонстрировать на похожем на MNIST датасете

4. Voice Processing

Обработка голоса позволяет нам слушать как голосовые ассистенты отвечают за нас на звонки спамеров и троллят их, автоматизировать работу огромных колл-центров, подтверждать свою личность по голосу, распознавать речь и синтезировать её голосом другого человека.

В качестве задания предлагается найти или создать самостоятельно небольшой датасет с короткими записями голосов 3-5 человек, реализовать несложную модель для создания эмбеддингов голоса и показать качество работы этой модели. Прочитать подробнее про эмбеддинги можно в первой половине этого поста. В качестве основы модели создания эмбеддингов звука рекомендуется брать результаты процедуры mfcc. Для отображения эмбеддингов графически рекомендуется использовать t-SNE.

5. Reinforcement Learning

Обучение с подкреплением позволяет создавать ботов для игры в человеческие игры - от змейки до DoTA 2. В этой области модели выступают в роли игроков и обучаются достигать в своём симулированном мире наибольшей награды за свои действия.

В качестве тестового задания предлагается посадить ракету на луну... в LunarLander. Для этого нужно будет познакомиться с библиотекой openAI Gym и разобраться в подходе Deep Q Network

6. Recommendations

Рекомендаци преследуют нас повсюда - от рекламы до песен и новостей. Рекомендовать можно изображения, тексты, музыку - что угодно. В качестве тестового задания предлагается разобраться в датасете Movielens и простых моделях рекомендаций. Реализуй одну из моделей из проверь качество рекомендаций с помощью рекомендательных метрик.

Заманчиво...

Тогда пиши в тг @arqtty