SparkExploring

Несколько примеров, демонстрирующих возможности Spark.

Рассмотрены некоторые возможности трёх модулей Spark: Spark MLib, Spark SQL, Spark Streaming.

Работа с каждым модулем вынесена в отдельный объект, а конкретные примеры - функции в объекте:

├── build.sbt
├── data
│   └── libsvm_data.txt
├── project
├── src
│   ├── main
│   │   └── scala
│   │       ├── testMLib.scala
│   │       ├── testSQL.scala
│   │       └── testStreaming.scala
│   └── test
└── target

Примеры запускаются из def main, их удобнее запускать по одному, чтобы понимать, что выводится.

Подключение Spark

В файл build.sbt добавлено:

libraryDependencies ++= Seq(
  "org.apache.spark" %% "spark-core" % "3.2.0",
  "org.apache.spark" %% "spark-sql" % "3.2.0",
  "org.apache.spark" %% "spark-mllib" % "3.2.0",
)

Spark MLib

CorrelationExample - подсчёт корелляционной матрицы с использованием коэффициента корелляции Пирсона и Спирмена.
ChiSquareTestExample - проверка гипотез: Хи-квадрат Пирсона.
PipelineExample - создание ML Pipeline.
RandomForestClassifierExample - логистическая регрессия: RandomForest.

Spark SQL

AddUpdateSelectExample - добавление/обновление/удаление столбцов и выполнение select.
FilterExample - выполнение filter.
GroupByExample - выполнение groupby.
JoinExample - выполнение join.

Spark Streaming

В примере происходит подсчёт количества слов в текстовых данных, полученных от сервера, прослушивающего сокет TCP. Чтобы запустить данный пример необходимо:

Запустить в отдельном терминале

$ nc -lk 9999

Запустить объект testStreaming с аргументами

localhost 9999

В IntelliJ IDEA необходимо добавить аргументы в конфигурацию запуска: Run > Edit Configurations > Program arguments

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

SparkExploring

Подключение Spark

Spark MLib

Spark SQL

Spark Streaming

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

SparkExploring

Подключение Spark

Spark MLib

Spark SQL

Spark Streaming