Навыки, которые вы получите:
Linux
SQL
Hadoop
Apache Spark
Apache airflow
Data engineer
В современных компаниях накапливается большой объем данных, из которых можно извлекать важную аналитику, строить гипотезы или модели прогнозирования. Data Engineer — это специалист, который собирает данные из разных источников, очищает их и передает в удобном виде аналитикам для принятия бизнес-решений.
Аналитикам данных нужно знать, как работает хранилище данных, в каком виде там хранятся данные, как они обрабатываются и как их можно получить для анализа.
Курс ориентирован на практику и основные инструменты, подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering.
Программа
- Введение, практический Linux
Кто такой Data Engineer и зачем ему Linux? - Современные хранилища данных
Разнообразие баз данных и их особенности. - Экосистема Hadoop
Что такое Hadoop, что он умеет и как им пользоваться. - Источники данных и работа с ними
Файлы как источники данных, JDBC — структурированные данные, SQL для выгрузки данных. - Apache Spark и обработка данных
Зачем нужен Apache Spark и как с ним работать. - Hadoop как хранилище данных
Особенности и нюансы hdfs. - Apache Airflow для оркестрации конвейеров
Настройка data pipelines. - Обзор облачных хранилищ
Особенности и нюансы работы с облачными хранилищами: Google, Amazon, Azure.