---
id: TRANS-001
category: Dev
confidence_score: 1.0
tags: [ai, [[Deep-Learning|Deep-Learning]], transformer, attention, llm]
last_reinforced: 2026-04-26
---

# Transformer [[Architecture|Architecture]] (트랜스포머 아키텍처)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "순차적 처리를 버리고, 데이터 간의 모든 관계를 한눈에 파악하라" — 구글이 제안한 "[[Attention is All You Need|Attention is All You Need]]" 논문 기반 아키텍처로, 병렬 연산과 어텐션 메커니즘을 통해 현대 모든 거대 모델(GPT, [[BERT|BERT]] 등)의 표준이 된 신경망 구조.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** 데이터를 한 번에 입력받아 각 요소 간의 연관성을 계산하고(Self-Attention), 정보를 인코딩 및 디코딩하여 복잡한 시퀀스 변환을 수행하는 전역 처리 패턴.
- **핵심 구성 요소:**
    - **Self-Attention:** 문장 내 모든 단어 쌍 사이의 관계를 점수로 매겨 문맥을 파악.
    - **Multi-Head Attention:** 여러 어텐션 루프를 통해 단어 사이의 다양한 의미적/구조적 관계를 동시 분석.
    - **Positional Encoding:** 순차 데이터가 아님에도 단어의 순서 정보를 벡터에 주입하여 위치 감각 부여.
    - **Encoder-Decoder:** 입력의 의미를 응축하는 인코더와 결과물을 하나씩 생성하는 디코더 구조.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 시계열 데이터는 반드시 순차적으로 처리해야 한다는 고정관념을 깨고, 전역적인 관계 분석과 대규모 병렬화가 가능함을 증명하며 AI의 성능 한계를 돌파함.
- **정책 변화:** Antigravity 프로젝트의 핵심 추론 엔진은 트랜스포머 기반의 아키텍처를 사용하며, 효율성을 높이기 위해 'Flash Attention'과 같은 최적화 기법을 적용함.

## 🔗 지식 연결 (Graph)
- Attention-Mechanisms, [[NLP-Attention-Mechanisms|NLP-Attention-Mechanisms]], [[LLM|LLM]], [[Parallel-Computing|Parallel-Computing]]
- **Raw Source:** 10_Wiki/Topics/AI/Transformer-Architecture.md