Files
2nd/10_Wiki/Topics/AI/Layer-Normalization.md
T
2026-04-30 22:42:02 +09:00

2.2 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
DL-NORM-001 10_Wiki/💡 Topics/AI 1.0
ai
Deep-Learning
Normalization
layer-norm
transformer
Stability
2026-04-26

Layer Normalization (레이어 정규화)

📌 한 줄 통찰 (The Karpathy Summary)

"데이터의 무리를 비교하지 말고, 각 샘플 내부의 통계를 다듬어 모델의 학습을 안정화하라" — 배치 단위가 아닌 각 데이터 샘플(Feature) 단위로 평균과 분산을 계산하여 정규화함으로써, 배치 크기에 구애받지 않고 일관된 학습 성능을 보장하는 기법.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: "Intra-sample Statistics" — 배치 정규화(Batch Norm)가 가진 배치 크기 의존성 문제를 해결하기 위해, 하나의 샘플 내 모든 뉴런의 활성화 값을 정규화하여 가중치 초기화나 기울기 소실 문제에 강건하게 대응하는 패턴.
  • 주요 특징:
    • Batch Independence: 배치 크기가 1이어도 작동하므로 온라인 학습이나 RNN, Transformer에 최적.
    • Computational Efficiency: 학습과 추론 시 동일한 방식으로 작동하여 구현이 단순함.
    • Stabilizing Deep Nets: 깊은 신경망의 내부 공변량 변화(Internal Covariate Shift)를 억제하여 학습 속도 향상.
  • 의의: 현대 NLP의 심장인 트랜스포머 아키텍처에서 안정적인 어텐션 연산을 가능케 하는 필수 요소.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 배치 정규화가 모든 곳에서 우월하다는 인식을 깨고, 시퀀스 데이터나 대규모 언어 모델에서는 레이어 정규화가 사실상의 표준(Standard)으로 자리 잡음.
  • 정책 변화: Antigravity 프로젝트의 모든 트랜스포머 기반 에이전트 모델은 학습의 안정성과 빠른 수렴을 위해 모든 어텐션 블록 직후에 레이어 정규화 층을 배치함.

🔗 지식 연결 (Graph)

  • Transformer-Architecture-Foundations, Deep-Learning-Foundations, Batch-Normalization-Foundations, Weight-Initialization-Strategies
  • Raw Source: 10_Wiki/Topics/AI/Layer-Normalization.md