Files
2nd/10_Wiki/Topics/Transformers.md
T
2026-04-30 22:42:02 +09:00

2.6 KiB


id: P-Reinforce-AUTO-TFMR-001 category: "10_Wiki/💡 Topics/AI" confidence_score: 0.99 tags: [auto-reinforced, transformers, attention-is-all-you-need, llm, neural-networks, Sequence-Modeling] last_reinforced: 2026-04-20

Transformers

📌 한 줄 통찰 (The Karpathy Summary)

"현대 AI의 빅뱅: 데이터의 순서에 집착하지 않고 전체 맥락 속에서 무엇이 중요한지 스스로 판단하는 '자기 주의(Self-Attention)' 메커니즘으로, 인간의 언어와 지식을 정복한 거대 지능의 표준 설계도."

📖 구조화된 지식 (Synthesized Content)

트랜스포머(Transformers)는 2017년 Google 연구진이 "Attention is All You Need" 논문을 통해 제안한 신경망 아키텍처로, 현대 생성 AI 혁명의 근원이 된 모델입니다.

  1. 혁신의 핵심 - Self-Attention:
    • 문장 내의 단어들이 서로 어떤 관계를 맺고 있는지 '가중치'를 통해 계산.
    • 예: "그는 사과를 씻어서 먹었다. '그것'은 달콤했다."에서 '그것'이 '사과'임을 병렬 연산으로 정확히 포착.
  2. 구조적 특징:
    • Parallelization: RNN과 달리 순차 처리가 필요 없어 GPU 연산 효율이 극대화됨.
    • Positional Encoding: 단어의 위치 정보를 수치화하여 입력에 더해줌.
    • Encoder-Decoder Structure: 번역 등에 활용되는 기본형과 더불어 GPT(Decoder only), BERT(Encoder only) 등의 변형 탄생.
  3. 영향력:
    • 자연어 처리(NLP)를 넘어 이미지(ViT), 오디오, 멀티모달 등 모든 AI 분야의 기본 엔진으로 자리 잡음.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 초기 트랜스포머는 긴 문장을 처리할 때 연산량이 제곱(O(n^2))으로 느려지는 치명적 약점이 있었으나, 현대 아키텍처 정책은 'Linear Attention'이나 'State Space Model(SSM)'과의 하이브리드화를 통해 이 한계를 정면 돌파하는 정책으로 진화함(RL Update).
  • 정책 변화(RL Update): 거대 모델의 연산 자원 독점이 심화됨에 따라, 초거대 트랜스포머를 더 작고 효율적으로 만드는 '경량화 트랜스포머(Tiny-Transformers)' 및 온디바이스 AI 정책에 예산과 연구가 집중되고 있음.

🔗 지식 연결 (Graph)