Статья для тех, кто уже знаком с нейросетями. Разберём архитектуру трансформера — фундамент GPT, Claude, Gemini и всех современных LLM.
«Attention is All You Need» — статья, изменившая всё
В 2017 году команда Google Brain опубликовала эту статью. Они предложили заменить рекуррентные сети (LSTM, GRU) механизмом внимания (attention). Результат превзошёл все ожидания и изменил всю отрасль.
Self-Attention: ядро трансформера
Self-attention позволяет каждому токену «смотреть» на все остальные токены в последовательности и оценивать их релевантность. Для каждого токена вычисляются три вектора: Query (Q), Key (K), Value (V). Итоговый attention score = softmax(QKT / √dk) · V.
Ключевые преимущества над RNN: параллельное вычисление (нет последовательной зависимости), длинные зависимости захватываются напрямую, эффективно масштабируется.
Multi-Head Attention
Вместо одного механизма внимания — несколько параллельных (heads), каждый обучается на разные типы зависимостей: синтаксические, семантические, позиционные, кореференционные. Результаты конкатенируются и проецируются через линейный слой.
Positional Encoding и RoPE
Трансформер сам по себе не имеет понятия порядка токенов — все обрабатываются параллельно. Positional encoding добавляет информацию о позиции. Классически — синусоидальные функции. В современных LLM применяется RoPE (Rotary Position Embedding): вращение векторов в комплексном пространстве, что обеспечивает лучшую экстраполяцию на длинные последовательности.
Scaling Laws и закон Chinchilla
Работа DeepMind (2022) установила: при фиксированном вычислительном бюджете оптимальное соотношение — N параметров ≈ D/20 токенов данных. Это изменило стратегии обучения всей индустрии: раньше модели недообучали.
Mixture of Experts (MoE)
Mixtral, GPT-4 (предположительно) используют MoE: вместо плотных FFN-слоёв — набор «экспертных» подсетей, маршрутизатор выбирает Top-K для каждого токена. Это позволяет иметь огромное число параметров при умеренных вычислительных затратах на инференс.
Добавить комментарий