Multi-Head Attention Mechanism (멀티 헤드 어텐션 메커니즘)

📌 한 줄 통찰 (The Karpathy Summary)

"정보의 바다를 한 쌍의 눈이 아닌, 서로 다른 관점을 가진 여러 개의 눈으로 동시에 주시하여 입체적인 문맥을 완성하라" — 입력 데이터를 여러 개의 독립적인 하위 공간(Subspaces)으로 투영하여 다양한 관계 정보를 병렬적으로 학습하고 통합하는 트랜스포머 아키텍처의 핵심 메커니즘.

📖 구조화된 지식 (Synthesized Content)

추출된 패턴: "Parallel Diverse Representation" — 단일 어텐션이 가진 편향성을 극복하기 위해, 가중치 행렬을 여러 뭉치(Heads)로 나누어 각 헤드가 문법적 관계, 의미적 관계, 장거리 의존성 등 서로 다른 특징에 집중하게 만든 후 이를 다시 합쳐(Concatenate) 풍부한 표현력을 확보하는 패턴.
작동 원리:
- Linear Projection: 입력 벡터를 $h$개의 다른 가중치로 투영하여 쿼리(Q), 키(K), 값(V) 생성.
- Scaled Dot-Product Attention: 각 헤드별로 독립적인 어텐션 스코어 계산.
- Concat & Linear: 모든 헤드의 결과를 이어 붙이고 최종 선형 변환을 통해 차원 유지.
의의: 문맥의 중의성을 해소하고 문장 내 복잡한 상호작용을 한 번에 파악할 수 있게 하여, NLP를 넘어 비전, 오디오 등 모든 AI 도메인의 표준 추론 방식으로 정착됨.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 헤드가 많을수록 무조건 좋다는 통념에서 벗어나, 특정 헤드가 중복된 정보를 학습하거나 중요도가 낮은 헤드가 존재할 수 있음이 밝혀져, 최근에는 헤드별 가중치를 조절하거나 가지치기(Pruning)하는 기술도 연구됨.
정책 변화: Antigravity 프로젝트의 핵심 추론 엔진은 지식 문서의 구조적 계층과 텍스트의 의미적 연결을 동시에 포착하기 위해 최적화된 8개 이상의 멀티 헤드 어텐션 레이어를 운용함.

🔗 지식 연결 (Graph)

Transformer-Architecture-Foundations, Self-Attention-Foundations, GPT-Architecture-Foundations, BERT-Foundations
Raw Source: 10_Wiki/Topics/AI/Multi-Head-Attention-Mechanism.md

2.5 KiB Raw Blame History

Multi-Head Attention Mechanism (멀티 헤드 어텐션 메커니즘)

📌 한 줄 통찰 (The Karpathy Summary)

📖 구조화된 지식 (Synthesized Content)

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

🔗 지식 연결 (Graph)

2.5 KiB

Raw Blame History