О программе
Язык — самый богатый источник данных о мире
Программа по NLP охватывает полный путь от классических методов работы с текстом до проектирования и применения современных языковых моделей. Это одна из наиболее востребованных специализаций в ИИ: NLP-инженеры востребованы в финансах, медицине, юриспруденции, технологиях и медиа.
Программа предполагает знакомство с Python и базовыми концепциями машинного обучения. Студентам, не имеющим такого бэкграунда, рекомендуется предварительно пройти «Основы ИИ» и «Машинное обучение на практике».
Практический результат: По завершении программы вы сможете самостоятельно создавать системы классификации текста, извлечения информации и вопрос-ответные системы. Вы будете уметь дообучать предобученные модели (BERT, RoBERTa) на специализированных задачах и строить RAG-приложения с использованием LLM.
Учебный план
M1
Модуль 1: Основы обработки текста
- Токенизация: слова, подслова, символы
- Нормализация: стемминг, лемматизация, стоп-слова
- Регулярные выражения для обработки текста
- NLTK и spaCy: базовые инструменты NLP
M2
Модуль 2: Векторные представления слов
- Bag-of-Words и TF-IDF: достоинства и ограничения
- Word2Vec и GloVe: dense word embeddings
- FastText: представления для морфологически богатых языков
- Визуализация embedding-пространства (t-SNE, UMAP)
M3
Модуль 3: Классические задачи NLP
- Классификация текста: спам, тональность, тематика
- Распознавание именованных сущностей (NER)
- Синтаксический анализ: часть речи, зависимости
- Совместное разрешение (coreference resolution)
M4
Модуль 4: Нейронные архитектуры для NLP: от RNN к трансформеру
- RNN, LSTM, GRU: последовательные модели
- Проблема длинных зависимостей и механизм внимания
- seq2seq архитектура для машинного перевода
- Трансформер: интуиция и ключевые компоненты
M5
Модуль 5: BERT и семейство encoder-моделей
- Маскированное языковое моделирование (MLM)
- BERT, RoBERTa, DeBERTa: сравнение архитектур
- Fine-tuning BERT на задачах классификации и NER
- Sentence Transformers для семантического поиска
M6
Модуль 6: GPT и decoder-модели
- Авторегрессивное языковое моделирование
- GPT-2, GPT-3, GPT-4: эволюция возможностей
- Few-shot и zero-shot промптинг
- Instruction fine-tuning и RLHF (концептуально)
M7
Модуль 7: Информационный поиск и RAG
- Плотный и разреженный поиск (dense vs. sparse retrieval)
- Векторные базы данных: Chroma, Pinecone, Weaviate
- Построение RAG-системы шаг за шагом
- Оценка качества RAG: RAGAS метрики
M8
Модуль 8: Машинный перевод и суммаризация
- Neural Machine Translation (NMT): seq2seq + внимание
- mBART и mT5 для многоязычного перевода
- Abstractive и extractive суммаризация
- Метрики: BLEU, ROUGE, BERTScore
M9
Модуль 9: Мультиязычный NLP и специализированные домены
- Кросс-языковые трансферные методы
- BioNLP: медицинская обработка текста (BioBERT, PubMedBERT)
- FinNLP: финансовые новости и анализ настроений
- LegalNLP: анализ юридических документов
M10
Модуль 10: LLM в production: деплой, оценка, мониторинг
- LangChain и LlamaIndex: оркестрация LLM-приложений
- Оценка LLM: automated benchmarking, human eval
- Управление стоимостью: кэширование, сжатие контекста
- Безопасность: prompt injection, guardrails, мониторинг
Начните изучение NLP сегодня
Все аналитические материалы программы бесплатны. Зарегистрируйтесь для доступа к обновлениям и практическим заданиям.
Записаться на программу