Средний уровень

Архитектура Transformer: как устроены современные LLM — для специалистов

📅 29 апреля 2026 🕐 1 мин чтения 👁 88 просмотров 📂 Для профессионалов

Статья для тех, кто уже знаком с нейросетями. Разберём архитектуру трансформера — фундамент GPT, Claude, Gemini и всех современных LLM.

«Attention is All You Need» — статья, изменившая всё

В 2017 году команда Google Brain опубликовала эту статью. Они предложили заменить рекуррентные сети (LSTM, GRU) механизмом внимания (attention). Результат превзошёл все ожидания и изменил всю отрасль.

Self-Attention: ядро трансформера

Self-attention позволяет каждому токену «смотреть» на все остальные токены в последовательности и оценивать их релевантность. Для каждого токена вычисляются три вектора: Query (Q), Key (K), Value (V). Итоговый attention score = softmax(QK^T / √d_k) · V.

Ключевые преимущества над RNN: параллельное вычисление (нет последовательной зависимости), длинные зависимости захватываются напрямую, эффективно масштабируется.

Multi-Head Attention

Вместо одного механизма внимания — несколько параллельных (heads), каждый обучается на разные типы зависимостей: синтаксические, семантические, позиционные, кореференционные. Результаты конкатенируются и проецируются через линейный слой.

Positional Encoding и RoPE

Трансформер сам по себе не имеет понятия порядка токенов — все обрабатываются параллельно. Positional encoding добавляет информацию о позиции. Классически — синусоидальные функции. В современных LLM применяется RoPE (Rotary Position Embedding): вращение векторов в комплексном пространстве, что обеспечивает лучшую экстраполяцию на длинные последовательности.

Scaling Laws и закон Chinchilla

Работа DeepMind (2022) установила: при фиксированном вычислительном бюджете оптимальное соотношение — N параметров ≈ D/20 токенов данных. Это изменило стратегии обучения всей индустрии: раньше модели недообучали.

Mixture of Experts (MoE)

Mixtral, GPT-4 (предположительно) используют MoE: вместо плотных FFN-слоёв — набор «экспертных» подсетей, маршрутизатор выбирает Top-K для каждого токена. Это позволяет иметь огромное число параметров при умеренных вычислительных затратах на инференс.

# искусственный интеллект

Архитектура Transformer: как устроены современные LLM — для специалистов

«Attention is All You Need» — статья, изменившая всё

Self-Attention: ядро трансформера

Multi-Head Attention

Positional Encoding и RoPE

Scaling Laws и закон Chinchilla

Mixture of Experts (MoE)

Читайте также

RLHF и Constitutional AI: как учат ChatGPT и Claude быть полезными

Проблема выравнивания ИИ (AI Alignment): почему это сложнее, чем кажется

Мультимодальные нейросети: GPT-4o, Gemini и ИИ с «глазами» и «ушами»

Добавить комментарий Отменить ответ