2nd/10_Wiki/Topics_Blog/Transformers.md

---
id: P-REINFORCE-AUTO-TFMR-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 0.99
tags: [auto-reinforced, transformers, attention-is-all-you-need, llm, neural-networks, sequence-modeling]
last_reinforced: 2026-04-20
---

# [[Transformers]]

## 📌 한 줄 통찰 (The Karpathy Summary)
> "현대 AI의 빅뱅: 데이터의 순서에 집착하지 않고 전체 맥락 속에서 무엇이 중요한지 스스로 판단하는 '자기 주의(Self-Attention)' 메커니즘으로, 인간의 언어와 지식을 정복한 거대 지능의 표준 설계도."

## 📖 구조화된 지식 (Synthesized Content)
트랜스포머(Transformers)는 2017년 Google 연구진이 "Attention is All You Need" 논문을 통해 제안한 신경망 아키텍처로, 현대 생성 AI 혁명의 근원이 된 모델입니다.

1.  **혁신의 핵심 - Self-Attention**:
    *   문장 내의 단어들이 서로 어떤 관계를 맺고 있는지 '가중치'를 통해 계산.
    *   예: "그는 사과를 씻어서 먹었다. '그것'은 달콤했다."에서 '그것'이 '사과'임을 병렬 연산으로 정확히 포착.
2.  **구조적 특징**:
    *   **Parallelization**: RNN과 달리 순차 처리가 필요 없어 GPU 연산 효율이 극대화됨.
    *   **Positional Encoding**: 단어의 위치 정보를 수치화하여 입력에 더해줌.
    *   **Encoder-Decoder Structure**: 번역 등에 활용되는 기본형과 더불어 GPT(Decoder only), BERT(Encoder only) 등의 변형 탄생.
3.  **영향력**:
    *   자연어 처리(NLP)를 넘어 이미지(ViT), 오디오, 멀티모달 등 모든 AI 분야의 기본 엔진으로 자리 잡음.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌**: 초기 트랜스포머는 긴 문장을 처리할 때 연산량이 제곱($O(n^2)$)으로 느려지는 치명적 약점이 있었으나, 현대 아키텍처 정책은 'Linear Attention'이나 'State Space Model(SSM)'과의 하이브리드화를 통해 이 한계를 정면 돌파하는 정책으로 진화함(RL Update).
- **정책 변화(RL Update)**: 거대 모델의 연산 자원 독점이 심화됨에 따라, 초거대 트랜스포머를 더 작고 효율적으로 만드는 '경량화 트랜스포머(Tiny-Transformers)' 및 온디바이스 AI 정책에 예산과 연구가 집중되고 있음.

## 🔗 지식 연결 (Graph)
- Foundational Models, [[State Space Model (SSM)]], [[Self-Supervised Learning (SSL)]], NLP (자연어 처리), [[Complexity Theory]]
- **Modern Tech/Tools**: GPT-4, Llama-3, Claude, Hugging Face, FlashAttention.
---