Аналитика

Анализ данных с Apache Spark

Навыки, которые вы получите:

3-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют Spark SQL, потоковую обработку Spark Streaming, машинное обучение MLLib и построение графов Spark GraphX.

Необходимая подготовка

Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano).
Начальный опыт программирования (Python/Java).
Начальный опыт в экосистеме Hadoop.

Программа

Обзор Apache Spark.
Основные абстракции Apache Spark.
Знакомство с Dataframes.
Знакомство со Spark RDD.
Apache Spark SQL.
Работа с источниками данных.
Производительность и параллелизм в Apache Spark.
Конфигурирование Apache Spark.
Spark Streaming.
GraphX.
MLLib.
Обработка слабоструктурированных данных.

Чему вы научитесь

Понимать особенности использования RDD и dataframe.
Обращаться к большим данным с использование SQL или HiveQL.
Использовать Spark Streaming для создания распределенных приложений потоковой обработки больших данных.
Настраивать и использовать компоненты MLLib и GraphX.
Обрабатывать слабоструктурированные данные, представленные в форматах JSON или XML.

Язык курса

Русский

Специализации

Big data

Обновлено 02 марта 2022