2nd/10_Wiki/Topics_Blog/Attention is All You Need.md

---
id: PAPER-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, nlp, paper-summary, transformer, attention, google-research]
last_reinforced: 2026-04-26
---

# Attention is All You Need (어텐션 논문 요약)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "순환(Recurrence)과 합성곱(Convolution) 없이, 오직 어텐션만으로 시퀀스를 정복하라" — 트랜스포머 아키텍처를 처음 세상에 알린 기념비적 논문으로, 대규모 병렬 연산과 전역적 문맥 파악의 시대를 연 현대 AI의 '창세기'.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** 기존 RNN의 고질적인 문제인 장기 의존성(Long-term dependency)과 순차적 연산의 한계를 타파하고, 모든 데이터 포인트가 서로를 '주의 깊게' 바라보게 설계된 혁신적 인지 패턴.
- **논문의 핵심 기여:**
    - **Self-Attention Mechanism:** 입력 시퀀스의 각 단어가 다른 모든 단어와의 가중치를 직접 계산하여 문맥을 파악.
    - **Multi-Head Attention:** 정보를 여러 관점(Head)에서 동시에 처리하여 입체적인 언어 이해 실현.
    - **Elimination of Recurrence:** 데이터를 순차적으로 넣지 않고 한꺼번에 입력하여 GPU 활용도와 학습 속도를 비약적으로 향상.
    - **Positional Encoding:** 순차 정보를 잃지 않기 위해 사인/코사인 함수를 이용한 위치 정보를 벡터에 주입.
- **결과:** 기계 번역(WMT 2014)에서 기존 SOTA를 갈아치우며 압도적 성능 증명.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 시계열 데이터는 반드시 시간 순서대로 처리해야 한다는 통념을 깨뜨림. 이로 인해 '텍스트'뿐만 아니라 이미지(ViT), 오디오 등 모든 도메인으로 트랜스포머가 확장됨.
- **정책 변화:** Antigravity 프로젝트는 이 논문의 철학을 계승하여, 지식들 간의 전역적 관계를 파악하는 '메타 그래프 어텐션' 로직을 위키 인덱싱 엔진에 적용함.

## 🔗 지식 연결 (Graph)
- [[Transformer-Architecture|Transformer-Architecture]], [[NLP-Attention-Mechanisms|NLP-Attention-Mechanisms]], [[LLM|LLM]], [[Parallel-Computing|Parallel-Computing]]
- **Raw Source:** 10_Wiki/Topics/AI/Attention is All You Need.md