Школа больших данных
Глобальный
Курс
Online
18 апреля 2022
3 дня
Стоимость курса
60 000 RUB
Подробности и регистрация

Анализ данных с Apache Spark

Навыки, которые вы получите:
SQL Hadoop Apache Spark Spark BigData

3-дневный практический курс для разработчиков Apache Spark, дата инженеров и аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют Spark SQL, потоковую обработку Spark Streaming, машинное обучение MLLib и построение графов Spark GraphX.

Необходимая подготовка 

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano).
  • Начальный опыт программирования (Python/Java).
  • Начальный опыт в экосистеме Hadoop.

Программа

  1. Обзор Apache Spark.
  2. Основные абстракции Apache Spark.
  3. Знакомство с Dataframes.
  4. Знакомство со Spark RDD.
  5. Apache Spark SQL.
  6. Работа с источниками данных.
  7. Производительность и параллелизм в Apache Spark.
  8. Конфигурирование Apache Spark.
  9. Spark Streaming.
  10. GraphX.
  11. MLLib.
  12. Обработка слабоструктурированных данных.

Чему вы научитесь

  • Понимать особенности использования RDD и dataframe.
  • Обращаться к большим данным с использование SQL или HiveQL. 
  • Использовать Spark Streaming для создания распределенных приложений потоковой обработки больших данных.
  • Настраивать и использовать компоненты MLLib и GraphX. 
  • Обрабатывать слабоструктурированные данные, представленные в форматах JSON или XML.
Нам нужен ваш фидбек!
Честный и беспристрастный