Skip to content

CyberLympha/data-analyze-for-cybersecurity

Repository files navigation

data-analyze-for-cybersecurity

Материалы курса "Анализ данных в задачах информационной безопасности". Курс читался в осеннем семестре 2023 года для бакалавриата "Информационная безопасность" ИРИТ-РТФ УрФУ.

Авторы: сотрудники исследовательского центра UDV Group

Чернышов Юрий

Скороходов Андрей

Синадский Алексей

Болкисев Илья

Иванов Петр

Программа

1.1 Лекция "Введение" Задачи анализа больших данных. Математический аппарат. Инструменты (python, библиотеки). Визуализация. Аппаратное обеспечение.

1.2 Практика "Программирование на Python" Основы Python

• История создания, применение Python

• PEP, PEP8

• Импорт модулей

• Типы данных, структуры, динамическая типизация

• Условные выражения, операторы и циклы

1.3 Практика "Программирование на Python" Основы Python

• Функции

• Обработка исключений

• ООП

2.1 Лекция "Анализ данных систем мониторинга" Основы статистики. Анализ статистических величин (матожидание, дисперсия, корреляция). A/B тестирование. Временные ряды.

2.2 Практика "Анализ данных" Основы анализа данных

• Анализ данных в Python

• Pandas

• SciPy

• NumPy

• Matplotlib

• Seaborn

• Plotly

2.3 Практика "Подготовка данных и обучение моделей" Подготовка данных к машинному обучению

• Жизненный цикл модели ML

• SKLearn

• Очистка данных

• Стандартизация и нормализация

• Кодирование

• Трансформация данных

• Feature engineering

• Обучение с учителем, разделение выборок

• Метрики оценки качества моделей

3.1 Лекции "Методы хранения и анализа информации" Типы БД

SQL:

• выборки

• манипулирование данными

• работа с таблицами

3.2 Практика Получение данных из XLS

Работа с SQLite из Python

3.3 Практика Поиск злоумышленников в массиве данных оператора связи (расследование)

4.1 Лекция "Машинное обучение" Типовые задачи машинного обучения. Обучение с учителем: регрессия, классификация. Признаки. Метрики. Переобучение. Кросс-валидация. Регуляризация.

Методы: деревья, KNN, регрессия, ...

Основы нейронных сетей. Полносвязная нейронная сеть.

4.2 Практика Классификация (DNN TF)

Бинарная классификация выживших на датасете Титаник.

4.3 Практика Кластеризация.

Регрессия возраста пассажиров на датасете Титаник. Кластеризация листов ириса.

5.1 Лекция "NLP для ИБ - 1" NLP. токенизация, очистка, векторизация, классификаторы.

Типовые задачи ИБ с применением NLP: детекция скама, OSINT, анализ скриптов настройки и конфигурационных файлов.

5.2 Практика Классификация спама (https://spamassassin.apache.org).

Классификация текстов (построение векторных представлений слов (bow, Tf-Ifd) и классификация с помощью алгоритмов машинного обучения)

5.3 Практика Кластеризация сетевых пакетов

Кластеризация текстов (построение эмбеддингов с помощью Fasttext и кластеризация с помощью алгоритмов машинного обучения)

6.1 Лекция "NLP для ИБ - 2" CNN, RNN.

Attention, transformer.

LLM.

6.2 Практика DevSecOps

Классификация программного кода с помощью моделей глубокого обучения

7.1 Лекция "Компьютерное зрение в задачах ИБ" Задачи CV: классификация, детекция, сегментация, трекинг. Инструменты. CNN. Типовые архитектуры (UNet, Yolo). Задачи биометрии. Метрики CV.

7.2 Практика Классификация изображений с помощью глубоких сверточных сетей.

7.3 Практика Сегментация изображений, история появления UNet, сравнение метрик и функций потерь

8.1 Лекция "Алгоритмы поведенческого анализа" Примерный план лекционного занятия:

  1. Анализ логов и применение ML в SOC.

  2. Практическое применение инструментов ML в USSC-SOC.

  3. Цели и задачи для развития сервиса Threat Hunting в USSC-SOC.

  4. Обсуждение идей по развитию ML в коммерческих SOC.

8.2 Практика Виды и формы представления информации в SOC. Снижение FP. Форензика.

8.3 Практика Отбор на проектный практикум в SOC

About

Материалы курса "Анализ данных для информационной безопасности"

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors