30 lines
2.3 KiB
Markdown
30 lines
2.3 KiB
Markdown
---
|
|
id: PAPER-001
|
|
category: "10_Wiki/💡 Topics/AI"
|
|
confidence_score: 1.0
|
|
tags: [ai, nlp, paper-summary, transformer, attention, google-research]
|
|
last_reinforced: 2026-04-26
|
|
---
|
|
|
|
# Attention is All You Need (어텐션 논문 요약)
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "순환(Recurrence)과 합성곱(Convolution) 없이, 오직 어텐션만으로 시퀀스를 정복하라" — 트랜스포머 아키텍처를 처음 세상에 알린 기념비적 논문으로, 대규모 병렬 연산과 전역적 문맥 파악의 시대를 연 현대 AI의 '창세기'.
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
- **추출된 패턴:** 기존 RNN의 고질적인 문제인 장기 의존성(Long-term dependency)과 순차적 연산의 한계를 타파하고, 모든 데이터 포인트가 서로를 '주의 깊게' 바라보게 설계된 혁신적 인지 패턴.
|
|
- **논문의 핵심 기여:**
|
|
- **Self-Attention Mechanism:** 입력 시퀀스의 각 단어가 다른 모든 단어와의 가중치를 직접 계산하여 문맥을 파악.
|
|
- **Multi-Head Attention:** 정보를 여러 관점(Head)에서 동시에 처리하여 입체적인 언어 이해 실현.
|
|
- **Elimination of Recurrence:** 데이터를 순차적으로 넣지 않고 한꺼번에 입력하여 GPU 활용도와 학습 속도를 비약적으로 향상.
|
|
- **Positional Encoding:** 순차 정보를 잃지 않기 위해 사인/코사인 함수를 이용한 위치 정보를 벡터에 주입.
|
|
- **결과:** 기계 번역(WMT 2014)에서 기존 SOTA를 갈아치우며 압도적 성능 증명.
|
|
|
|
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
|
- **과거 데이터와의 충돌:** 시계열 데이터는 반드시 시간 순서대로 처리해야 한다는 통념을 깨뜨림. 이로 인해 '텍스트'뿐만 아니라 이미지(ViT), 오디오 등 모든 도메인으로 트랜스포머가 확장됨.
|
|
- **정책 변화:** Antigravity 프로젝트는 이 논문의 철학을 계승하여, 지식들 간의 전역적 관계를 파악하는 '메타 그래프 어텐션' 로직을 위키 인덱싱 엔진에 적용함.
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- [[Transformer-Architecture|Transformer-Architecture]], [[NLP-Attention-Mechanisms|NLP-Attention-Mechanisms]], [[LLM|LLM]], [[Parallel-Computing|Parallel-Computing]]
|
|
- **Raw Source:** 10_Wiki/Topics/AI/Attention is All You Need.md
|