2.3 KiB
2.3 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | ||||||
|---|---|---|---|---|---|---|---|---|---|---|
| PAPER-001 | 10_Wiki/💡 Topics/AI | 1.0 |
|
2026-04-26 |
Attention is All You Need (어텐션 논문 요약)
📌 한 줄 통찰 (The Karpathy Summary)
"순환(Recurrence)과 합성곱(Convolution) 없이, 오직 어텐션만으로 시퀀스를 정복하라" — 트랜스포머 아키텍처를 처음 세상에 알린 기념비적 논문으로, 대규모 병렬 연산과 전역적 문맥 파악의 시대를 연 현대 AI의 '창세기'.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: 기존 RNN의 고질적인 문제인 장기 의존성(Long-term dependency)과 순차적 연산의 한계를 타파하고, 모든 데이터 포인트가 서로를 '주의 깊게' 바라보게 설계된 혁신적 인지 패턴.
- 논문의 핵심 기여:
- Self-Attention Mechanism: 입력 시퀀스의 각 단어가 다른 모든 단어와의 가중치를 직접 계산하여 문맥을 파악.
- Multi-Head Attention: 정보를 여러 관점(Head)에서 동시에 처리하여 입체적인 언어 이해 실현.
- Elimination of Recurrence: 데이터를 순차적으로 넣지 않고 한꺼번에 입력하여 GPU 활용도와 학습 속도를 비약적으로 향상.
- Positional Encoding: 순차 정보를 잃지 않기 위해 사인/코사인 함수를 이용한 위치 정보를 벡터에 주입.
- 결과: 기계 번역(WMT 2014)에서 기존 SOTA를 갈아치우며 압도적 성능 증명.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 시계열 데이터는 반드시 시간 순서대로 처리해야 한다는 통념을 깨뜨림. 이로 인해 '텍스트'뿐만 아니라 이미지(ViT), 오디오 등 모든 도메인으로 트랜스포머가 확장됨.
- 정책 변화: Antigravity 프로젝트는 이 논문의 철학을 계승하여, 지식들 간의 전역적 관계를 파악하는 '메타 그래프 어텐션' 로직을 위키 인덱싱 엔진에 적용함.
🔗 지식 연결 (Graph)
- Transformer-Architecture, NLP-Attention-Mechanisms, LLM, Parallel-Computing
- Raw Source: 10_Wiki/Topics/AI/Attention is All You Need.md