⚡ Новости
OpenAI анонсировала GPT-5 с возможностями AGI DeepMind: AlphaFold 3 решает задачи, недоступные людям Elon Musk: xAI строит суперкомпьютер на 100 000 GPU Новые бенчмарки 2026: сравнение Claude 4, GPT-5 и Gemini Ultra OpenAI анонсировала GPT-5 с возможностями AGI DeepMind: AlphaFold 3 решает задачи, недоступные людям Elon Musk: xAI строит суперкомпьютер на 100 000 GPU Новые бенчмарки 2026: сравнение Claude 4, GPT-5 и Gemini Ultra
Средний уровень

Архитектура Transformer: как устроены современные LLM — для специалистов

Статья для тех, кто уже знаком с нейросетями. Разберём архитектуру трансформера — фундамент GPT, Claude, Gemini и всех современных LLM.

«Attention is All You Need» — статья, изменившая всё

В 2017 году команда Google Brain опубликовала эту статью. Они предложили заменить рекуррентные сети (LSTM, GRU) механизмом внимания (attention). Результат превзошёл все ожидания и изменил всю отрасль.

Self-Attention: ядро трансформера

Self-attention позволяет каждому токену «смотреть» на все остальные токены в последовательности и оценивать их релевантность. Для каждого токена вычисляются три вектора: Query (Q), Key (K), Value (V). Итоговый attention score = softmax(QKT / √dk) · V.

Ключевые преимущества над RNN: параллельное вычисление (нет последовательной зависимости), длинные зависимости захватываются напрямую, эффективно масштабируется.

Multi-Head Attention

Вместо одного механизма внимания — несколько параллельных (heads), каждый обучается на разные типы зависимостей: синтаксические, семантические, позиционные, кореференционные. Результаты конкатенируются и проецируются через линейный слой.

Positional Encoding и RoPE

Трансформер сам по себе не имеет понятия порядка токенов — все обрабатываются параллельно. Positional encoding добавляет информацию о позиции. Классически — синусоидальные функции. В современных LLM применяется RoPE (Rotary Position Embedding): вращение векторов в комплексном пространстве, что обеспечивает лучшую экстраполяцию на длинные последовательности.

Scaling Laws и закон Chinchilla

Работа DeepMind (2022) установила: при фиксированном вычислительном бюджете оптимальное соотношение — N параметров ≈ D/20 токенов данных. Это изменило стратегии обучения всей индустрии: раньше модели недообучали.

Mixture of Experts (MoE)

Mixtral, GPT-4 (предположительно) используют MoE: вместо плотных FFN-слоёв — набор «экспертных» подсетей, маршрутизатор выбирает Top-K для каждого токена. Это позволяет иметь огромное число параметров при умеренных вычислительных затратах на инференс.

Читайте также

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *