Навыки, которые вы получите:
SQL
Hadoop
Apache Spark
Spark
BigData
3-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют Spark SQL, потоковую обработку Spark Streaming, машинное обучение MLLib и построение графов Spark GraphX.
Необходимая подготовка
- Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano).
- Начальный опыт программирования (Python/Java).
- Начальный опыт в экосистеме Hadoop.
Программа
- Обзор Apache Spark.
- Основные абстракции Apache Spark.
- Знакомство с Dataframes.
- Знакомство со Spark RDD.
- Apache Spark SQL.
- Работа с источниками данных.
- Производительность и параллелизм в Apache Spark.
- Конфигурирование Apache Spark.
- Spark Streaming.
- GraphX.
- MLLib.
- Обработка слабоструктурированных данных.
Чему вы научитесь
- Понимать особенности использования RDD и dataframe.
- Обращаться к большим данным с использование SQL или HiveQL.
- Использовать Spark Streaming для создания распределенных приложений потоковой обработки больших данных.
- Настраивать и использовать компоненты MLLib и GraphX.
- Обрабатывать слабоструктурированные данные, представленные в форматах JSON или XML.