О программе
Компьютерное зрение: от пикселей к пониманию
Программа по компьютерному зрению — это 12-недельный углублённый курс для специалистов, уже знакомых с Python и основами машинного обучения. Вы изучите полный стек технологий CV: от предобработки изображений и классических алгоритмов до современных архитектур нейронных сетей на PyTorch.
Каждый модуль сочетает теоретический разбор архитектур с практическими заданиями на реальных наборах данных. Финальный проект — полноценная CV-система для задачи по выбору студента: медицинская диагностика, мониторинг производства или компьютерное зрение для автономных систем.
Предварительные требования: Python (базовый уровень), понимание линейной алгебры (матрицы, векторы), представление о машинном обучении (желательно прохождение курса «Основы ИИ» или аналога). Опыт работы с NumPy будет плюсом.
Учебный план
M1
Модуль 1: Цифровые изображения и базовые операции
- Представление изображений: пиксели, каналы, цветовые пространства
- OpenCV: чтение, запись, базовые трансформации
- Фильтрация, свёртки и морфологические операции
- Сегментация на основе порогов и цвета
M2
Модуль 2: Классические алгоритмы компьютерного зрения
- Детекция рёбер (Canny, Sobel, Laplacian)
- Детекция и описание ключевых точек (SIFT, ORB)
- Оптический поток и трекинг объектов
- Проективные трансформации и калибровка камеры
M3
Модуль 3: Глубокое обучение для CV: свёрточные сети
- Свёртки и пулинг: математика и интуиция
- Ранние архитектуры: LeNet, AlexNet, VGG
- ResNet и skip-connections: решение проблемы затухающих градиентов
- Transfer learning: практика с PyTorch
M4
Модуль 4: Современные архитектуры и Vision Transformers
- EfficientNet и масштабирование нейронных сетей
- Vision Transformer (ViT): внимание вместо свёрток
- CLIP и мультимодальное понимание изображений
- Сравнение архитектур на практических бенчмарках
M5
Модуль 5: Детекция объектов: от R-CNN до YOLO
- Задача детекции: bounding boxes, IoU, mAP
- Двухэтапные детекторы: R-CNN, Fast R-CNN, Faster R-CNN
- Одноэтапные детекторы: SSD, YOLOv5/v8, DETR
- Non-Maximum Suppression и постобработка
M6
Модуль 6: Семантическая и инстанс-сегментация
- Задача сегментации: пиксельная классификация
- Архитектура U-Net и её применения
- Mask R-CNN для инстанс-сегментации
- SAM (Segment Anything Model) от Meta AI
M7
Модуль 7: CV в медицинской диагностике
- Специфика медицинских изображений: DICOM, КТ, МРТ
- Аугментация данных для медицинских задач
- Обнаружение патологий на рентгеновских снимках
- FDA-одобренные системы: архитектурный разбор
M8
Модуль 8: 3D компьютерное зрение и LiDAR
- Глубинные карты и 3D реконструкция
- Point clouds: обработка облаков точек
- LiDAR для автономных транспортных средств
- NeRF: нейронные радиационные поля
M9
Модуль 9: Generative Models для изображений
- GANs: генеративно-состязательные сети
- Диффузионные модели: Stable Diffusion под капотом
- Image-to-image translation и inpainting
- Синтетические данные для обучения CV-систем
M10
Модуль 10: Production CV: оптимизация и деплой
- Квантизация и прунинг моделей
- ONNX и TensorRT для ускорения инференса
- Деплой на edge-устройствах (NVIDIA Jetson, Raspberry Pi)
- Мониторинг CV-систем в production
Готовы приступить к изучению CV?
Все материалы программы доступны бесплатно. Зарегистрируйтесь, чтобы получать уведомления об обновлениях и новых практических заданиях.
Записаться на программу