Normalization Strategies (정규화 전략)

📌 한 줄 통찰 (The Karpathy Summary)

"데이터의 날것 그대로의 요동을 차분히 길들여, 신경망이 혼란 없이 최적의 길(Gradient)을 찾도록 하라" — 신경망 내부의 데이터 분포를 일정하게 유지함으로써 학습 속도를 높이고 기울기 소실/폭주 문제를 완화하여 모델의 수렴 안정성을 극대화하는 기법.

추출된 패턴: "Distribution ReAlignment and Internal Covariate Shift Mitigation" — 각 층을 통과하며 변하는 데이터의 평균과 분산을 특정 범위(보통 평균 0, 분산 1)로 강제로 조정하여, 후속 레이어들이 안정적인 입력 데이터 분포를 바탕으로 학습에만 집중하게 만드는 패턴.
주요 전략:
- Batch Normalization: 미니 배치 단위의 통계량을 사용하여 정규화. CNN 등 일반적인 딥러닝에서 매우 효과적.
- Layer Normalization: 각 데이터 샘플 내의 모든 특징을 기준으로 정규화. 시퀀스 데이터와 Transformer 아키텍처의 표준.
- Instance Normalization: 각 채널별로 정규화. 주로 스타일 전이(Style Transfer) 및 생성 모델에서 사용.
- Group Normalization: 특징 채널을 그룹으로 묶어 정규화. 배치 크기가 매우 작을 때 Batch Norm의 대안으로 활용.
의의: 더 깊은 신경망을 더 높은 학습률로 더 빠르게 학습시킬 수 있게 하는 현대 딥러닝 최적화의 핵심 인프라.

과거 데이터와의 충돌: 정규화가 단순히 내부 공변량 변화(Internal Covariate Shift)를 줄이기 때문이라는 초기 가설을 넘어, 실제로는 손실 함수 곡면(Loss Landscape)을 매끄럽게 만들어 최적화를 쉽게 한다는 평탄화(Smoothing) 관점이 현대적 정설임.
정책 변화: Antigravity 프로젝트는 대규모 언어 모델 학습 및 추론 시, 연산 효율과 안정성이 입증된 Pre-Layer Normalization 아키텍처를 기본 사양으로 적용함.

Layer-Normalization, Batch-Normalization-Exploration, Deep-Learning-Foundations, Gradient-Descent-Foundations
Raw Source: 10_Wiki/Topics/AI/Normalization-Strategies.md