ПРОДВИНУТЫЙ 11 недель Python + HuggingFace

Обработка естественного языка и языковые модели

От классических NLP-методов до современных LLM. Программа охватывает полный спектр задач: от токенизации и анализа тональности до дообучения трансформеров и создания RAG-систем с использованием HuggingFace Transformers и LangChain.

Записаться на программу Учебный план
Интерфейс работы с языковой моделью на экране компьютера, графики токенизации текста и диаграммы внимания трансформера
10Модулей
10+Практ. заданий
11 нед.Продолжительность
Python + MLТребования
БесплатноДоступ к материалам

Язык — самый богатый источник данных о мире

Программа по NLP охватывает полный путь от классических методов работы с текстом до проектирования и применения современных языковых моделей. Это одна из наиболее востребованных специализаций в ИИ: NLP-инженеры востребованы в финансах, медицине, юриспруденции, технологиях и медиа.

Программа предполагает знакомство с Python и базовыми концепциями машинного обучения. Студентам, не имеющим такого бэкграунда, рекомендуется предварительно пройти «Основы ИИ» и «Машинное обучение на практике».

Практический результат: По завершении программы вы сможете самостоятельно создавать системы классификации текста, извлечения информации и вопрос-ответные системы. Вы будете уметь дообучать предобученные модели (BERT, RoBERTa) на специализированных задачах и строить RAG-приложения с использованием LLM.

Учебный план

M1
Модуль 1: Основы обработки текста
  • Токенизация: слова, подслова, символы
  • Нормализация: стемминг, лемматизация, стоп-слова
  • Регулярные выражения для обработки текста
  • NLTK и spaCy: базовые инструменты NLP
M2
Модуль 2: Векторные представления слов
  • Bag-of-Words и TF-IDF: достоинства и ограничения
  • Word2Vec и GloVe: dense word embeddings
  • FastText: представления для морфологически богатых языков
  • Визуализация embedding-пространства (t-SNE, UMAP)
M3
Модуль 3: Классические задачи NLP
  • Классификация текста: спам, тональность, тематика
  • Распознавание именованных сущностей (NER)
  • Синтаксический анализ: часть речи, зависимости
  • Совместное разрешение (coreference resolution)
M4
Модуль 4: Нейронные архитектуры для NLP: от RNN к трансформеру
  • RNN, LSTM, GRU: последовательные модели
  • Проблема длинных зависимостей и механизм внимания
  • seq2seq архитектура для машинного перевода
  • Трансформер: интуиция и ключевые компоненты
M5
Модуль 5: BERT и семейство encoder-моделей
  • Маскированное языковое моделирование (MLM)
  • BERT, RoBERTa, DeBERTa: сравнение архитектур
  • Fine-tuning BERT на задачах классификации и NER
  • Sentence Transformers для семантического поиска
M6
Модуль 6: GPT и decoder-модели
  • Авторегрессивное языковое моделирование
  • GPT-2, GPT-3, GPT-4: эволюция возможностей
  • Few-shot и zero-shot промптинг
  • Instruction fine-tuning и RLHF (концептуально)
M7
Модуль 7: Информационный поиск и RAG
  • Плотный и разреженный поиск (dense vs. sparse retrieval)
  • Векторные базы данных: Chroma, Pinecone, Weaviate
  • Построение RAG-системы шаг за шагом
  • Оценка качества RAG: RAGAS метрики
M8
Модуль 8: Машинный перевод и суммаризация
  • Neural Machine Translation (NMT): seq2seq + внимание
  • mBART и mT5 для многоязычного перевода
  • Abstractive и extractive суммаризация
  • Метрики: BLEU, ROUGE, BERTScore
M9
Модуль 9: Мультиязычный NLP и специализированные домены
  • Кросс-языковые трансферные методы
  • BioNLP: медицинская обработка текста (BioBERT, PubMedBERT)
  • FinNLP: финансовые новости и анализ настроений
  • LegalNLP: анализ юридических документов
M10
Модуль 10: LLM в production: деплой, оценка, мониторинг
  • LangChain и LlamaIndex: оркестрация LLM-приложений
  • Оценка LLM: automated benchmarking, human eval
  • Управление стоимостью: кэширование, сжатие контекста
  • Безопасность: prompt injection, guardrails, мониторинг

Начните изучение NLP сегодня

Все аналитические материалы программы бесплатны. Зарегистрируйтесь для доступа к обновлениям и практическим заданиям.

Записаться на программу