Вы освоите все необходимые навыки машинного обучения для потоковых данных и распределенной среды. В программу включены необходимые знания из областей Data Science и Data Engineering, которые позволят вам обрабатывать большие данные и писать распределенные алгоритмы на Spark.
Каждый модуль вы будете закреплять на практике, выполняя домашнее задание. В конце обучения вас ждет финальный проект, который позволит обобщить все полученные знания и пополнить портфолио. Он может быть выполнен в рамках рабочих задач на вашем датасете или быть учебным проектом, основанным на данных, предоставляемых OTUS.
Навыки, которые вы освоите, максимально прикладные и перспективные. На рынке появляется все больше цифровых продуктов, для развития которых необходима работа с большими данными и потоковую обработку.
Кому подойдет курс
- Для специалистов по Машинному обучению или Software инженеров, которые хотят научиться работать с большими данными. Обычно такие задачи имеются в крупных IT-компаниях с масштабным цифровым продуктом.
- Для Data Scientist, которые хотят усилить свой скиллсет инженерными навыками. Благодаря курсу вы будете уметь обрабатывать данные и самостоятельно выводить результаты ML-решений в продакшн.
Необходимая подгтовка
Базовые навыки программирования
- Управляющие конструкции, циклы, рекурсия.
- Основные структуры данных: массивы, списки, словари, деревья.
- Базовые принципы ООП; знакомство с одним из языков: Python, Java, Scala, C++.
Математика
- Линейная алгебра: вектора, матрицы и их произведения.
- Матан: производная простых и композитных функций.
- Вычметоды: градиентный спуск, Ньютоновские итерации.
- Теория вероятности: случайные события и величины, математическое ожидание, дисперсия.
Технологии
- Понимание основ работы вычислительной техники в рамках архитектуры фон Неймана (процессор, память, кэш, подключаемое хранилище).
- Понимание общих принципов реляционных СУБД, знание SQL.
Программа
- Базовые вводные для старта курса.
- Технологические основы распределенной обработки данных.
- Основы распределенного МL.
- Потоковая обработка данных.
- Целеполагание и анализ результатов.
- Вывод результатов ML в продакшн.
- ML на Python в продакшне.
- Продвинутые топики.
- Проектная работа.
Чему вы научитесь
- Использовать стандартные инструменты ML-конвейеров в распределенной среде.
- Разрабатывать собственные блоки для ML-конвейеров.
- Адаптировать ML-алгоритмы к распределенной среде и инструментам big data.
- Использовать Spark, SparkML, Spark Streaming.
- Разрабатывать алгоритмы потоковой подготовки данных для машинного обучения.
- Обеспечивать контроль качества на всех этапах движения ML-решений в промышленную эксплуатацию.