Машинное обучение на практике — Образовательная программа

О программе

Машинное обучение — это процесс, а не магия

Программа «Машинное обучение на практике» устраняет разрыв между теорией и производственными реалиями ML. Вы пройдёте полный цикл: от формулировки задачи и сбора данных до валидации модели и её деплоя в виде API-сервиса.

Акцент сделан на том, что реально важно в работе: понимание данных, feature engineering, правильный выбор метрик успеха, интерпретация результатов и общение с нетехническими стейкхолдерами. Каждый модуль заканчивается практической лабораторной работой на реальном датасете.

Чему вы научитесь: Полноценно вести ML-проект от постановки задачи до деплоя. Выбирать подходящие алгоритмы и понимать их ограничения. Диагностировать проблемы модели: переобучение, дисбаланс классов, data leakage. Объяснять результаты нетехнической аудитории.

Учебный план

Модуль 1: Типология задач и полный цикл ML-проекта

Регрессия, классификация, кластеризация, аномалии
CRISP-DM методология на практике
Постановка задачи: от бизнес-проблемы к ML-задаче
Jupyter Notebooks: рабочая среда ML-инженера

Модуль 2: Исследовательский анализ данных (EDA)

Pandas: загрузка, очистка, трансформация данных
Визуализация с Matplotlib и Seaborn
Выявление пропущенных значений и выбросов
Корреляции, распределения, статистические тесты

Модуль 3: Feature Engineering: создание признаков

Кодирование категориальных переменных
Обработка временных данных и временных рядов
Нормализация и стандартизация
Feature selection: фильтрационные и обёрточные методы

Модуль 4: Линейные и деревьевые модели

Линейная и логистическая регрессия: интуиция и реализация
Decision Trees: интерпретируемые модели
Random Forest и бэггинг
Gradient Boosting: XGBoost, LightGBM, CatBoost

Модуль 5: Оценка и диагностика моделей

Метрики классификации: accuracy, precision, recall, F1, ROC-AUC
Метрики регрессии: MAE, RMSE, R², MAPE
Cross-validation: k-fold, stratified, time-series split
Диагностика: bias-variance tradeoff, learning curves

Модуль 6: Настройка гиперпараметров

Grid Search и Random Search
Bayesian Optimization (Optuna, Hyperopt)
Early stopping и регуляризация
Ансамблирование моделей: stacking, blending

Модуль 7: Интерпретируемость и объяснение моделей

SHAP-значения: глобальная и локальная интерпретация
LIME для объяснений отдельных предсказаний
Partial Dependence Plots и Feature Importance
Коммуникация результатов с бизнесом

Модуль 8: Работа с несбалансированными данными и специальные задачи

Дисбаланс классов: oversampling (SMOTE), undersampling, веса классов
Обнаружение аномалий: Isolation Forest, One-Class SVM
Рекомендательные системы: collaborative и content-based filtering
Обработка текста: TF-IDF и классические NLP-методы

Модуль 9: MLOps: от ноутбука к production

Воспроизводимость: MLflow для отслеживания экспериментов
Деплой модели как REST API (FastAPI + Docker)
Мониторинг дрейфа данных (data drift, concept drift)
CI/CD для ML: автоматическое переобучение и валидация

Приступите к практике ML уже сегодня

Все материалы программы доступны бесплатно. Начните с первого модуля или оставьте заявку на уведомления об обновлениях.

Записаться на программу