Материалы курса "Анализ данных в задачах информационной безопасности". Курс читался в осеннем семестре 2023 года для бакалавриата "Информационная безопасность" ИРИТ-РТФ УрФУ.
Авторы: сотрудники исследовательского центра UDV Group
Чернышов Юрий
Скороходов Андрей
Синадский Алексей
Болкисев Илья
Иванов Петр
Программа
1.1 Лекция "Введение" Задачи анализа больших данных. Математический аппарат. Инструменты (python, библиотеки). Визуализация. Аппаратное обеспечение.
1.2 Практика "Программирование на Python" Основы Python
• История создания, применение Python
• PEP, PEP8
• Импорт модулей
• Типы данных, структуры, динамическая типизация
• Условные выражения, операторы и циклы
1.3 Практика "Программирование на Python" Основы Python
• Функции
• Обработка исключений
• ООП
2.1 Лекция "Анализ данных систем мониторинга" Основы статистики. Анализ статистических величин (матожидание, дисперсия, корреляция). A/B тестирование. Временные ряды.
2.2 Практика "Анализ данных" Основы анализа данных
• Анализ данных в Python
• Pandas
• SciPy
• NumPy
• Matplotlib
• Seaborn
• Plotly
2.3 Практика "Подготовка данных и обучение моделей" Подготовка данных к машинному обучению
• Жизненный цикл модели ML
• SKLearn
• Очистка данных
• Стандартизация и нормализация
• Кодирование
• Трансформация данных
• Feature engineering
• Обучение с учителем, разделение выборок
• Метрики оценки качества моделей
3.1 Лекции "Методы хранения и анализа информации" Типы БД
SQL:
• выборки
• манипулирование данными
• работа с таблицами
3.2 Практика Получение данных из XLS
Работа с SQLite из Python
3.3 Практика Поиск злоумышленников в массиве данных оператора связи (расследование)
4.1 Лекция "Машинное обучение" Типовые задачи машинного обучения. Обучение с учителем: регрессия, классификация. Признаки. Метрики. Переобучение. Кросс-валидация. Регуляризация.
Методы: деревья, KNN, регрессия, ...
Основы нейронных сетей. Полносвязная нейронная сеть.
4.2 Практика Классификация (DNN TF)
Бинарная классификация выживших на датасете Титаник.
4.3 Практика Кластеризация.
Регрессия возраста пассажиров на датасете Титаник. Кластеризация листов ириса.
5.1 Лекция "NLP для ИБ - 1" NLP. токенизация, очистка, векторизация, классификаторы.
Типовые задачи ИБ с применением NLP: детекция скама, OSINT, анализ скриптов настройки и конфигурационных файлов.
5.2 Практика Классификация спама (https://spamassassin.apache.org).
Классификация текстов (построение векторных представлений слов (bow, Tf-Ifd) и классификация с помощью алгоритмов машинного обучения)
5.3 Практика Кластеризация сетевых пакетов
Кластеризация текстов (построение эмбеддингов с помощью Fasttext и кластеризация с помощью алгоритмов машинного обучения)
6.1 Лекция "NLP для ИБ - 2" CNN, RNN.
Attention, transformer.
LLM.
6.2 Практика DevSecOps
Классификация программного кода с помощью моделей глубокого обучения
7.1 Лекция "Компьютерное зрение в задачах ИБ" Задачи CV: классификация, детекция, сегментация, трекинг. Инструменты. CNN. Типовые архитектуры (UNet, Yolo). Задачи биометрии. Метрики CV.
7.2 Практика Классификация изображений с помощью глубоких сверточных сетей.
7.3 Практика Сегментация изображений, история появления UNet, сравнение метрик и функций потерь
8.1 Лекция "Алгоритмы поведенческого анализа" Примерный план лекционного занятия:
-
Анализ логов и применение ML в SOC.
-
Практическое применение инструментов ML в USSC-SOC.
-
Цели и задачи для развития сервиса Threat Hunting в USSC-SOC.
-
Обсуждение идей по развитию ML в коммерческих SOC.
8.2 Практика Виды и формы представления информации в SOC. Снижение FP. Форензика.
8.3 Практика Отбор на проектный практикум в SOC