Обработка естественного языка (NLP) и языковые модели — Образовательная программа

О программе

Язык — самый богатый источник данных о мире

Программа по NLP охватывает полный путь от классических методов работы с текстом до проектирования и применения современных языковых моделей. Это одна из наиболее востребованных специализаций в ИИ: NLP-инженеры востребованы в финансах, медицине, юриспруденции, технологиях и медиа.

Программа предполагает знакомство с Python и базовыми концепциями машинного обучения. Студентам, не имеющим такого бэкграунда, рекомендуется предварительно пройти «Основы ИИ» и «Машинное обучение на практике».

Практический результат: По завершении программы вы сможете самостоятельно создавать системы классификации текста, извлечения информации и вопрос-ответные системы. Вы будете уметь дообучать предобученные модели (BERT, RoBERTa) на специализированных задачах и строить RAG-приложения с использованием LLM.

Учебный план

Модуль 1: Основы обработки текста

Токенизация: слова, подслова, символы
Нормализация: стемминг, лемматизация, стоп-слова
Регулярные выражения для обработки текста
NLTK и spaCy: базовые инструменты NLP

Модуль 2: Векторные представления слов

Bag-of-Words и TF-IDF: достоинства и ограничения
Word2Vec и GloVe: dense word embeddings
FastText: представления для морфологически богатых языков
Визуализация embedding-пространства (t-SNE, UMAP)

Модуль 3: Классические задачи NLP

Классификация текста: спам, тональность, тематика
Распознавание именованных сущностей (NER)
Синтаксический анализ: часть речи, зависимости
Совместное разрешение (coreference resolution)

Модуль 4: Нейронные архитектуры для NLP: от RNN к трансформеру

RNN, LSTM, GRU: последовательные модели
Проблема длинных зависимостей и механизм внимания
seq2seq архитектура для машинного перевода
Трансформер: интуиция и ключевые компоненты

Модуль 5: BERT и семейство encoder-моделей

Маскированное языковое моделирование (MLM)
BERT, RoBERTa, DeBERTa: сравнение архитектур
Fine-tuning BERT на задачах классификации и NER
Sentence Transformers для семантического поиска

Модуль 6: GPT и decoder-модели

Авторегрессивное языковое моделирование
GPT-2, GPT-3, GPT-4: эволюция возможностей
Few-shot и zero-shot промптинг
Instruction fine-tuning и RLHF (концептуально)

Модуль 7: Информационный поиск и RAG

Плотный и разреженный поиск (dense vs. sparse retrieval)
Векторные базы данных: Chroma, Pinecone, Weaviate
Построение RAG-системы шаг за шагом
Оценка качества RAG: RAGAS метрики

Модуль 8: Машинный перевод и суммаризация

Neural Machine Translation (NMT): seq2seq + внимание
mBART и mT5 для многоязычного перевода
Abstractive и extractive суммаризация
Метрики: BLEU, ROUGE, BERTScore

Модуль 9: Мультиязычный NLP и специализированные домены

Кросс-языковые трансферные методы
BioNLP: медицинская обработка текста (BioBERT, PubMedBERT)
FinNLP: финансовые новости и анализ настроений
LegalNLP: анализ юридических документов

M10

Модуль 10: LLM в production: деплой, оценка, мониторинг

LangChain и LlamaIndex: оркестрация LLM-приложений
Оценка LLM: automated benchmarking, human eval
Управление стоимостью: кэширование, сжатие контекста
Безопасность: prompt injection, guardrails, мониторинг

Начните изучение NLP сегодня

Все аналитические материалы программы бесплатны. Зарегистрируйтесь для доступа к обновлениям и практическим заданиям.

Записаться на программу

Обработка естественного языка и языковые модели

Язык — самый богатый источник данных о мире

Учебный план

Начните изучение NLP сегодня