Аналитика

Промышленный ML на больших данных

Навыки, которые вы получите:

Вы освоите все необходимые навыки машинного обучения для потоковых данных и распределенной среды. В программу включены необходимые знания из областей Data Science и Data Engineering, которые позволят вам обрабатывать большие данные и писать распределенные алгоритмы на Spark.

Каждый модуль вы будете закреплять на практике, выполняя домашнее задание. В конце обучения вас ждет финальный проект, который позволит обобщить все полученные знания и пополнить портфолио. Он может быть выполнен в рамках рабочих задач на вашем датасете или быть учебным проектом, основанным на данных, предоставляемых OTUS.

Навыки, которые вы освоите, максимально прикладные и перспективные. На рынке появляется все больше цифровых продуктов, для развития которых необходима работа с большими данными и потоковую обработку.

Кому подойдет курс

Для специалистов по Машинному обучению или Software инженеров, которые хотят научиться работать с большими данными. Обычно такие задачи имеются в крупных IT-компаниях с масштабным цифровым продуктом.
Для Data Scientist, которые хотят усилить свой скиллсет инженерными навыками. Благодаря курсу вы будете уметь обрабатывать данные и самостоятельно выводить результаты ML-решений в продакшн.

Необходимая подгтовка

Базовые навыки программирования

Управляющие конструкции, циклы, рекурсия.
Основные структуры данных: массивы, списки, словари, деревья.
Базовые принципы ООП; знакомство с одним из языков: Python, Java, Scala, C++.

Математика

Линейная алгебра: вектора, матрицы и их произведения.
Матан: производная простых и композитных функций.
Вычметоды: градиентный спуск, Ньютоновские итерации.
Теория вероятности: случайные события и величины, математическое ожидание, дисперсия.

Технологии

Понимание основ работы вычислительной техники в рамках архитектуры фон Неймана (процессор, память, кэш, подключаемое хранилище).
Понимание общих принципов реляционных СУБД, знание SQL.

Программа

Базовые вводные для старта курса.
Технологические основы распределенной обработки данных.
Основы распределенного МL.
Потоковая обработка данных.
Целеполагание и анализ результатов.
Вывод результатов ML в продакшн.
ML на Python в продакшне.
Продвинутые топики.
Проектная работа.

Чему вы научитесь

Использовать стандартные инструменты ML-конвейеров в распределенной среде.
Разрабатывать собственные блоки для ML-конвейеров.
Адаптировать ML-алгоритмы к распределенной среде и инструментам big data.
Использовать Spark, SparkML, Spark Streaming.
Разрабатывать алгоритмы потоковой подготовки данных для машинного обучения.
Обеспечивать контроль качества на всех этапах движения ML-решений в промышленную эксплуатацию.

Язык курса

Русский

Специализации

Machine learning, Big data

Обновлено 02 марта 2022