Files
2nd/10_Wiki/Topics/Self-Attention-Mechanisms.md
T
2026-05-02 23:33:34 +09:00

2.5 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
DL-SELF-ATT-001 Unified 1.0
ai
Deep-Learning|Deep-Learning
transformer
self-attention
attention-mechanism
nlp
neural-networks
2026-04-26

Self-Attention Mechanisms (셀프 어텐션 메커니즘)

📌 한 줄 통찰 (The Karpathy Summary)

"데이터 내의 모든 요소가 서로의 맥락을 병렬로 탐색하게 하고, 현재의 의미를 완성하는 데 가장 기여도가 높은 '상대'에게 지능의 초점을 집중시켜라" — 입력 시퀀스의 각 요소가 전체 시퀀스의 다른 모든 요소와 상호작용하며 자신의 의미를 업데이트하는 트랜스포머 아키텍처의 핵심 메커니즘.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: "Dynamic Contextual Weighing and Parallel Interaction" — 각 단어를 질문(Query), 대상(Key), 정보(Value) 벡터로 투영하고, 질문과 대상 사이의 유사도(Dot-product)를 점수화하여 필요한 정보를 가중 평균하여 가져오는 패턴.
  • 핵심 수식 개념:
    • Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V
    • Scaled Dot-product: 기울기 폭주를 막기 위해 차원 수의 제곱근으로 나누어줌.
    • Multi-head Attention: 여러 개의 어텐션을 병렬로 돌려 다양한 시각(문법적, 의미적 등)에서 맥락 파악.
  • 의의: RNN과 달리 시퀀스를 순차적으로 처리할 필요가 없어 병렬 연산이 가능하며, 거리가 먼 단어들 사이의 관계(Long-range dependency)도 한 번에 파악할 수 있는 지능의 혁신을 이룸.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 데이터가 길어질수록 연산량이 제곱(O(n^2))으로 늘어난다는 치명적 한계를 극복하기 위해, 최근에는 Flash Attention이나 Sparse Attention 등 연산 효율을 극대화한 다양한 변형 기술들이 도입되고 있음.
  • 정책 변화: Antigravity 프로젝트는 대규모 지식 관계망 구축 시, 문서 간의 의미적 거리를 산출하기 위해 내부적으로 멀티 헤드 셀프 어텐션 기반의 임베딩 분석 엔진을 활용함.

🔗 지식 연결 (Graph)