Курс Data Science [Тариф Стандарт] [balun.courses] [Дмитрий Сафонов]

Принц · Вчера в 21:50

Складчина: Курс Data Science [Тариф Стандарт] [balun.courses] [Дмитрий Сафонов]

Курс по Data Science для middle: senior-навыки за 6 недель

Подойдет для Data Scientists, Classic ML и NLP-инженеров уровня middle/middle+
Нужны базовые знания основ машинного обучения, математики и программирования
Будем писать на Python, но если ты программируешь на чем-то другом — это некритично. Вся практика будет применима на другие ЯП

В курсе осваиваем навыки, которые мешают расти мидлам

Как обнаружить проблемы в грязных данных в самом начале работы и сделать модель, устойчивую к дрейфу
Как учесть все инфраструктурные ограничения и раскатать модель на прод с первого раза без финансовых потерь
Как правильно мониторить деградацию моделей в проде, делать их стабильными и автоматически переобучать
Как строить хорошие признаки по нестабильным временным рядам — активности пользователей, курсу валют и др.
Как расти в зарплате через связку продуктовых и бизнес-метрик: увеличивать выручку и средний чек, а не техническую точность рекомендаций
Как тестировать раскатанную ML через A/B-тесты, избегать ложных выводов и потерь у смежных бизнес-подразделений
Программа
6 недель точечно закрываем каждый блок-фактор
Не просто теория, а выжимка всего опыта от TeamLead из Яндекса. Лучшие практики из BigTech, разбор реальных бизнес-кейсов и много кода, который ты напишешь самостоятельно

Вводная часть
Неделя 1. Feature Engineering, Bias и согласованность данных
Неделя 2. Модели: оптимизация и нестандартные сценарии использования ML
Неделя 3. Real-time ML, потоковая обработка, мониторинг и обслуживание
Неделя 4. Feature Store, MLOps, оптимизация ресурсов
Неделя 5. Связка продуктовых и бизнес-метрик
Неделя 6. Дипломный проект

Спойлер: Подробно:
Вводная часть
проблематика курса: основные проблемы с данными, инфраструктурные сложности, слабая связь модельных и бизнес метрик
основные различия между датасетами обучения и работой
про табличные и текстовые данные из курса, отражающие реальные бизнес-процессы из финансовой, рекламной и других digital-сфер
тонкости применения популярных в BigTech моделей для задач классификации, регрессии, ранжирования и прогнозирования — Catboost, Tabnet, DSSM, Bert
Практика:
BigTech-кейс с изменением поведения модели в продакшне, которое не определить стандартными методами. Подробный разбор предпосылок и последствий. Разбор методов оценки стабильности факторов, которые помогают избежать проблемы в продакшне
*на основе сервиса для настройки рекламы

Неделя 1. Feature Engineering, Bias и согласованность данных
На этой неделе учимся:
видеть основные проблемы, которые встречаются в продакшн данных и бороться с ними
генерить признаки по реальным данным, оценивать их полезность и стабильность
спасать модели от переобучения, а бизнес — от финансовых потерь

Урок № 1 — Feature Engineering для продакшена
Теория:
основные методы feature engineering
Практика:
генерация фичей в условиях нестабильных данных
PSI, Jensen-Shannon Divergence
дисперсия признаков
различное поведение в зависимости от среза
потеря информации при нормировке
работа с категориальными переменными в продакшене
обработка новых категорий
хэширование
Домашняя работа:
генерация стабильных фичей из сырых данных. Отбор полезных, которые лучше всего объясняют таргет

Урок № 2 — Смещения (Bias) и согласованность данных
Теория:
продвинутые методы детекции и коррекции bias
Causal Inference для рекомендательных систем
Fairness Metrics
Reweighing, Sample Balancing, Fair Representation Learning
Синхронизация данных из распределенных источников
CDC
event sourcing
Практика:
синхронизация данных из двух источников разного типа, восстановление истории и замерка лага
Домашняя работа:
обнаружить и исправить временное смещение (temporal shift) в продакшн-данных

Неделя 2. Модели: оптимизация и нестандартные сценарии использования ML
На этой неделе учимся:
изучаем best practices BigTech-компаний для решения задач с различными данными
разбираем лучшие модели для табличных и текстовых данных, а также критерии их применения
учимся контролировать инференс изученных моделей и четко понимать, для каких задач использовать Bert, DSSM, XGBoost

Урок № 3 — База по моделям
Теория:
что и где используется в продакшн на примере кейсов из BigTech
Catboost vs Tabnet
NLP applications (Bert, DSSM)
интерпретируемость моделей
продвинутая борьба с переобучением
Практика:
настраиваем, обучаем, проверяем изученные модели на задаче с реальными данными

Урок № 4 — Оптимизация ML-моделей для продакшена
Теория:
квантование, дистилляция и pruning моделей (практические примеры из NLP/CV)
как выбирать между скоростью и точностью (cost vs quality)
Практика:
разбираем дистилляцию и pruning моделей на примере нейросетей для текстов
Домашняя работа:
уменьшить размер модели в 2 раза с минимальной потерей качества

Урок № 5 — Нестандартные сценарии использования ML
Теория:
модели для данных с задержкой: прогнозирование с incomplete data, Semi-supervised learning, Proxy labeling, Feature Lagging
ансамблирование в условиях ограниченных ресурсов
Практика:
адаптируем ML-решение задачи к данным с задержками, разбираем применимость в зависимости от характера задержек
Домашняя работа:
построить модель, работающую с частичными данными (имитация задержек)

Неделя 3. Real-time ML, потоковая обработка, мониторинг и обслуживание
На этой неделе учимся:
посмотрим на жизненный цикл модели в продакшене и best practices в MLOps инструментах
научимся чинить прод, проектировать архитектуру, взаимодействовать со смежными командами и писать свои процессы в рамках инфраструктуры BigTech

Урок № 6 — Real-time ML и потоковая обработка
Теория:
архитектура streaming-пайплайнов: Kafka + Flink/Spark Streaming
батчинг, кэширование, GPU-ускорение
Практика:
адаптиция признаков и моделей к свойствам архитектуры, функциональным и нефункциональным требованиям
Домашняя работа:
настроить потоковый пайплайн для обработки данных с задержкой

Урок № 7 — Мониторинг и обслуживание моделей
Теория:
детекция дрифта + автоматический ретранинг (Evidently, MLflow)
использование AutoML, полезные функции
как дебажить падающую модель в продакшене
Практика:
реализация систем мониторинга для моделей
Домашняя работа:
настроить алертинг при дрифте данных

Неделя 4. Feature Store, MLOps, оптимизация ресурсов
На этой неделе учимся:
научимся планировать ресурсы и масштабировать ML-продукты
поговорим про CI/CD и релизный цикл
научимся считать ресурсы CPU, GPU для cервисов, тестировать и контролировать релизы

Урок № 8 — Feature Store и MLOps
Теория:
когда и зачем нужен Feature Store (Hopsworks, Feast)
интеграция с CI/CD
тестирование моделей перед деплоем: Data Integrity Tests, Feature Tests, Model Quality tests
Практика:
создание, наполнение, взаимодействие с Feature Store
Домашняя работа:
разработка тестов для моделей и признаков в CI/CD

Урок № 9 — Оптимизация ресурсов
Теория:
как снизить стоимость ML в облаке: автоскейлинг, spot instances
Практика:
кейс: как экономить на инференсе на примере Spotify

Неделя 5. Связка продуктовых и бизнес-метрик

Урок № 10 — Продуктовые метрики и эксперименты
Теория:
как связать продуктовые и бизнес-метрики
как оценить влияние модели на бизнес (incremental lift, CUPED).
ликбез по A/B тестам для Data Scientist
почему A/B тесты могут врать (псевдо-рандомизация, сезонность)
Практика:
разработка интегральной метрики, учитывающей счастье пользователя и бизнес метрики для digital продукта.
проверка статистической значимости изменений
Домашняя работа:
промоделировать A/B тест внедрения модели, оценить значимость изменения целевой метрики

Урок № 11 — Что делать, когда ML не работает
BigTech-кейсы, где ML проигрывает простым правилам
как аргументировать отказ от ML перед бизнесом

Неделя 6. Дипломный проект
Автоматизировать обработку обращений клиентов с помощью классификации обращений.

Проект будет разбит на 2 этапа:
бизнес часть с формулировкой требований и полезности
разработка архитектуры и техническая реализация MVP
По желанию проект можно будет защитить в live-режиме и получить фидбек

В итоге прокачаем hard’ы до уровня Senior в BigTech и научимся:

Работать с «грязными» данными, искать смещения и дрифты
Использовать Feature engineering в real time системах и генерировать признаки с пониманием вычислительной сложности
Оптимизировать ML-модели для продакшна
Использовать специфику актуальных ML/DL моделей для работы с табличными и текстовыми данными
Контролировать жизненный цикл моделей в продакшне и строить мониторинги
Работать с MLOps инструментами и взаимодействовать с инфраструктурой
Преподает: Дмитрий Сафонов, Data Science Team Lead в Яндекс
разрабатываю алгоритмы антифрода рекламы, руковожу ML-командой - Яндекс
cтроил прогнозные модели биржевых индикаторов, разработал инфраструктуру для автоматизации ML-процессов - Quantum Brains
преподавал анализ данных на Python - СПБГЭУ

Тариф Стандарт

Стоимость: 52600 руб.

СКАЧАТЬ

Для просмотра скрытого содержимого вы должны зарегистрироваться

Курс Data Science [Тариф Стандарт] [balun.courses] [Дмитрий Сафонов]

Принц

Возможно, Вас ещё заинтересует: