---
id: DL-TR-MHA-001
category: Dev
confidence_score: 1.0
tags: [ai, [[Deep-Learning|Deep-Learning]], transformer, multi-head-attention, self-attention, nlp]
last_reinforced: 2026-04-26
---

# Multi-Head Attention Mechanism (멀티 헤드 어텐션 메커니즘)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "정보의 바다를 한 쌍의 눈이 아닌, 서로 다른 관점을 가진 여러 개의 눈으로 동시에 주시하여 입체적인 문맥을 완성하라" — 입력 데이터를 여러 개의 독립적인 하위 공간(Subspaces)으로 투영하여 다양한 관계 정보를 병렬적으로 학습하고 통합하는 트랜스포머 아키텍처의 핵심 메커니즘.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Parallel Diverse Representation" — 단일 어텐션이 가진 편향성을 극복하기 위해, 가중치 행렬을 여러 뭉치(Heads)로 나누어 각 헤드가 문법적 관계, 의미적 관계, 장거리 의존성 등 서로 다른 특징에 집중하게 만든 후 이를 다시 합쳐(Concatenate) 풍부한 표현력을 확보하는 패턴.
- **작동 원리:**
    - **Linear Projection:** 입력 벡터를 $h$개의 다른 가중치로 투영하여 쿼리(Q), 키(K), 값(V) 생성.
    - **Scaled Dot-Product Attention:** 각 헤드별로 독립적인 어텐션 스코어 계산.
    - **Concat & Linear:** 모든 헤드의 결과를 이어 붙이고 최종 선형 변환을 통해 차원 유지.
- **의의:** 문맥의 중의성을 해소하고 문장 내 복잡한 상호작용을 한 번에 파악할 수 있게 하여, NLP를 넘어 비전, 오디오 등 모든 AI 도메인의 표준 추론 방식으로 정착됨.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 헤드가 많을수록 무조건 좋다는 통념에서 벗어나, 특정 헤드가 중복된 정보를 학습하거나 중요도가 낮은 헤드가 존재할 수 있음이 밝혀져, 최근에는 헤드별 가중치를 조절하거나 가지치기(Pruning)하는 기술도 연구됨.
- **정책 변화:** Antigravity 프로젝트의 핵심 추론 엔진은 지식 문서의 구조적 계층과 텍스트의 의미적 연결을 동시에 포착하기 위해 최적화된 8개 이상의 멀티 헤드 어텐션 레이어를 운용함.

## 🔗 지식 연결 (Graph)
- [[Transformer-Architecture|Transformer-Architecture]]-Foundations, Self-Attention-Foundations, GPT-Architecture-Foundations, [[BERT|BERT]]-Foundations
- **Raw Source:** 10_Wiki/Topics/AI/Multi-Head-Attention-Mechanism.md