Руководство по большим языковым моделям: от архитектуры до практического применения

Разработчик за двумя мониторами с кодом Python и интерфейсом языковой модели, текстовые токены и схема трансформера на экране

Большие языковые модели (Large Language Models, LLM) стали одной из самых обсуждаемых технологий последнего десятилетия — и одной из наиболее неправильно понимаемых. Этот материал разбирает, как LLM устроены на фундаментальном уровне, чем модели отличаются друг от друга, как их правильно применять и где пролегают реальные ограничения — без излишней технической нагрузки, но с достаточной глубиной для осмысленного использования.

Масштаб задачи: GPT-4 обучен приблизительно на 45 терабайтах текста и содержит порядка 1,8 триллиона параметров (оценка SemiAnalysis 2023). Для сравнения: все книги, написанные людьми за историю цивилизации, содержат примерно 1-2 терабайта текста. LLM читали интернет в сотни раз больше, чем самый образованный человек.

Архитектура трансформера: интуитивное объяснение

Революционная статья «Attention is All You Need» (Vaswani et al., Google Brain, 2017) заложила архитектурный фундамент современных LLM. До трансформеров языковые модели строились на рекуррентных нейронных сетях (RNN, LSTM), обрабатывавших текст последовательно — слово за словом. Трансформер обрабатывает весь текст параллельно через механизм внимания (attention).

Механизм self-attention: суть идеи

Механизм self-attention позволяет каждому слову в предложении «смотреть» на все остальные слова и взвешивать их важность для понимания своего контекста. Обрабатывая слово «банк» в предложении «он пошёл в банк за кредитом», модель высоко взвешивает «кредит» и понимает финансовый смысл; в предложении «они сидели на берегу банка реки» — высоко взвешивает «берег» и «реки».

Multi-head attention — несколько параллельных механизмов внимания, каждый из которых «специализируется» на разных типах синтаксических и семантических отношений. Это аналог разных точек зрения на один и тот же текст, объединённых в финальное представление.

Обучение LLM: три этапа

Этап 1: Преобучение (Pre-training)

На этапе преобучения модель обучается предсказывать следующий токен (приблизительно слово или часть слова) на гигантском корпусе текстов — статьях Википедии, книгах, веб-страницах, научных публикациях, коде. Задача кажется простой, но для её решения модель вынуждена неявно усвоить грамматику, факты, рассуждения и даже теорию разума.

Это самый дорогостоящий этап: обучение GPT-4 обошлось предположительно в $50-100 млн только по статье вычислительных ресурсов.

Этап 2: Instruction Fine-tuning (SFT)

Преобученная модель умеет предсказывать продолжение текста, но плохо следует инструкциям. Supervised Fine-Tuning (SFT) на тщательно подготовленных парах «инструкция–ответ» учит модель понимать задание и давать полезный отклик.

Этап 3: RLHF — обучение с обратной связью от людей

Reinforcement Learning from Human Feedback (RLHF) — техника, сделавшая ChatGPT полезным инструментом вместо статистического генератора текста. Оценщики-люди ранжируют разные ответы модели, их предпочтения используются для обучения «модели вознаграждения», которая затем направляет дообучение основной модели через RL.

Антропик (Anthropic) разработала вариацию — Constitutional AI (CAI), где поведенческие ограничения описываются явным «конституционным» документом, снижая зависимость от разметки людьми.

Основные семейства моделей в 2025 году

Семейство Разработчик Особенности Лицензия
GPT-4o / GPT-4.1 OpenAI Нативная мультимодальность, инструменты, высокая точность рассуждений Проприетарная
Claude 3.5 / 3.7 Anthropic Конституционный ИИ, большое контекстное окно, сильный анализ документов Проприетарная
Gemini 1.5 / 2.0 Google DeepMind Контекстное окно 1M+ токенов, нативная мультимодальность, интеграция с Google Проприетарная
Llama 3 / 3.1 Meta AI Открытые веса, высокое соотношение качество/размер, активное сообщество Meta Llama License (открытая)
Mistral / Mixtral Mistral AI Архитектура MoE (Mixture of Experts), эффективность, европейская альтернатива Apache 2.0 / проприетарная
Phi-3 / Phi-4 Microsoft Small LM с высокими показателями, обучение на синтетических данных, on-device MIT License

RAG: решение проблемы устаревших знаний

Одно из ключевых ограничений LLM — фиксированная точка отсечения обучающих данных (training cutoff). Модель не знает о событиях, произошедших после сбора данных для обучения. Retrieval-Augmented Generation (RAG) решает эту проблему элегантным образом.

При RAG-архитектуре запрос пользователя сначала используется для поиска релевантных фрагментов из актуальной базы знаний (корпоративные документы, последние новости, обновлённая база данных). Найденные фрагменты включаются в контекст запроса к LLM, которая синтезирует ответ на основе свежей информации. Это позволяет сохранять языковые и рассуждательные способности LLM при работе с актуальными данными.

Промпт-инжиниринг: практические техники

Качество вывода LLM критически зависит от качества промпта. Несколько хорошо задокументированных техник:

  • Chain-of-Thought (CoT) промптинг: Добавление «Давай думать пошагово» к задаче значительно улучшает точность на задачах рассуждения. Wei et al. (2022) показали улучшение на 40–50% на математических бенчмарках.
  • Few-shot примеры: Включение 3-5 демонстрационных пар «вопрос–ответ» в формате, который вы ожидаете, резко снижает ошибки форматирования и повышает соответствие ожиданиям.
  • Role prompting: «Ты — опытный юрист, специализирующийся на трудовом праве США» активирует релевантные паттерны из обучающих данных и улучшает качество специализированных ответов.
  • Self-consistency: Генерация нескольких ответов на один вопрос и выбор наиболее частого — повышает надёжность на задачах с однозначным ответом.

Ограничения LLM: что важно понимать

Критически важно понимать системные ограничения LLM, чтобы использовать их ответственно:

  • Галлюцинации: Модели уверенно генерируют правдоподобно звучащие, но фактически неверные утверждения. Это не баг, а следствие архитектуры: модель оптимизирована под правдоподобность, а не достоверность.
  • Нет понимания — есть паттерны: LLM не «понимают» в человеческом смысле. Они выявляют и воспроизводят статистические паттерны в данных, что ведёт к странным ошибкам на нестандартных задачах.
  • Контекстное окно: При превышении контекстного окна модель «забывает» начало разговора. Для длинных документов необходимы специальные техники.
  • Prompt injection: Вредоносный текст в обрабатываемых данных может изменять поведение модели — серьёзная проблема безопасности для production-систем.

Об авторе

Доктор Елена Ростова, ведущий NLP-исследователь Mirexa, специалист в области архитектуры языковых моделей и практического NLP
Dr. Elena Rostova Lead NLP Researcher, Mirexa. PhD, Carnegie Mellon University. Специализация: архитектуры языковых моделей, промпт-инжиниринг, оценка качества LLM.
Теги: