2.4 KiB
2.4 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | |||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| DL-SELF-ATT-001 | 10_Wiki/💡 Topics/AI | 1.0 |
|
2026-04-26 |
Self-Attention Mechanisms (셀프 어텐션 메커니즘)
📌 한 줄 통찰 (The Karpathy Summary)
"데이터 내의 모든 요소가 서로의 맥락을 병렬로 탐색하게 하고, 현재의 의미를 완성하는 데 가장 기여도가 높은 '상대'에게 지능의 초점을 집중시켜라" — 입력 시퀀스의 각 요소가 전체 시퀀스의 다른 모든 요소와 상호작용하며 자신의 의미를 업데이트하는 트랜스포머 아키텍처의 핵심 메커니즘.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: "Dynamic Contextual Weighing and Parallel Interaction" — 각 단어를 질문(Query), 대상(Key), 정보(Value) 벡터로 투영하고, 질문과 대상 사이의 유사도(Dot-product)를 점수화하여 필요한 정보를 가중 평균하여 가져오는 패턴.
- 핵심 수식 개념:
- Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V
- Scaled Dot-product: 기울기 폭주를 막기 위해 차원 수의 제곱근으로 나누어줌.
- Multi-head Attention: 여러 개의 어텐션을 병렬로 돌려 다양한 시각(문법적, 의미적 등)에서 맥락 파악.
- 의의: RNN과 달리 시퀀스를 순차적으로 처리할 필요가 없어 병렬 연산이 가능하며, 거리가 먼 단어들 사이의 관계(Long-range dependency)도 한 번에 파악할 수 있는 지능의 혁신을 이룸.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 데이터가 길어질수록 연산량이 제곱(
O(n^2))으로 늘어난다는 치명적 한계를 극복하기 위해, 최근에는 Flash Attention이나 Sparse Attention 등 연산 효율을 극대화한 다양한 변형 기술들이 도입되고 있음. - 정책 변화: Antigravity 프로젝트는 대규모 지식 관계망 구축 시, 문서 간의 의미적 거리를 산출하기 위해 내부적으로 멀티 헤드 셀프 어텐션 기반의 임베딩 분석 엔진을 활용함.
🔗 지식 연결 (Graph)
- Natural-Language-Processing-NLP, Deep-Learning-Foundations, Scalability-in-AI-Systems, Modern-Website-Architecture
- Raw Source: 10_Wiki/Topics/AI/Self-Attention-Mechanisms.md