Otus
Глобальный
Курс
Online
29 марта 2022
5 месяцев
Стоимость курса
80 000 RUB
Подробности и регистрация

Промышленный ML на больших данных

Навыки, которые вы получите:
Scala API SQL Apache Spark A/B testing Spark Docker Machine learning СУБД Python

Вы освоите все необходимые навыки машинного обучения для потоковых данных и распределенной среды. В программу включены необходимые знания из областей Data Science и Data Engineering, которые позволят вам обрабатывать большие данные и писать распределенные алгоритмы на Spark.

Каждый модуль вы будете закреплять на практике, выполняя домашнее задание. В конце обучения вас ждет финальный проект, который позволит обобщить все полученные знания и пополнить портфолио. Он может быть выполнен в рамках рабочих задач на вашем датасете или быть учебным проектом, основанным на данных, предоставляемых OTUS.

Навыки, которые вы освоите, максимально прикладные и перспективные. На рынке появляется все больше цифровых продуктов, для развития которых необходима работа с большими данными и потоковую обработку. 

Кому подойдет курс

  • Для специалистов по Машинному обучению или Software инженеров, которые хотят научиться работать с большими данными. Обычно такие задачи имеются в крупных IT-компаниях с масштабным цифровым продуктом.
  • Для Data Scientist, которые хотят усилить свой скиллсет инженерными навыками. Благодаря курсу вы будете уметь обрабатывать данные и самостоятельно выводить результаты ML-решений в продакшн.

Необходимая подгтовка

Базовые навыки программирования

  • Управляющие конструкции, циклы, рекурсия.
  • Основные структуры данных: массивы, списки, словари, деревья.
  • Базовые принципы ООП; знакомство с одним из языков: Python, Java, Scala, C++.

Математика

  • Линейная алгебра: вектора, матрицы и их произведения.
  • Матан: производная простых и композитных функций.
  • Вычметоды: градиентный спуск, Ньютоновские итерации.
  • Теория вероятности: случайные события и величины, математическое ожидание, дисперсия.

Технологии

  • Понимание основ работы вычислительной техники в рамках архитектуры фон Неймана (процессор, память, кэш, подключаемое хранилище).
  • Понимание общих принципов реляционных СУБД, знание SQL.

Программа

  1. Базовые вводные для старта курса.
  2. Технологические основы распределенной обработки данных.
  3. Основы распределенного МL.
  4. Потоковая обработка данных.
  5. Целеполагание и анализ результатов.
  6. Вывод результатов ML в продакшн.
  7. ML на Python в продакшне.
  8. Продвинутые топики.
  9. Проектная работа.

Чему вы научитесь

  • Использовать стандартные инструменты ML-конвейеров в распределенной среде.
  • Разрабатывать собственные блоки для ML-конвейеров.
  • Адаптировать ML-алгоритмы к распределенной среде и инструментам big data.
  • Использовать Spark, SparkML, Spark Streaming.
  • Разрабатывать алгоритмы потоковой подготовки данных для машинного обучения.
  • Обеспечивать контроль качества на всех этапах движения ML-решений в промышленную эксплуатацию.
Нам нужен ваш фидбек!
Честный и беспристрастный