--- id: DL-NORM-001 category: Unified confidence_score: 1.0 tags: [ai, [[Deep-Learning|Deep-Learning]], [[Normalization|Normalization]], batch-norm, layer-norm, training-Stability] last_reinforced: 2026-04-26 --- # Normalization Strategies (정규화 전략) ## 📌 한 줄 통찰 (The Karpathy Summary) > "데이터의 날것 그대로의 요동을 차분히 길들여, 신경망이 혼란 없이 최적의 길(Gradient)을 찾도록 하라" — 신경망 내부의 데이터 분포를 일정하게 유지함으로써 학습 속도를 높이고 기울기 소실/폭주 문제를 완화하여 모델의 수렴 안정성을 극대화하는 기법. ## 📖 구조화된 지식 (Synthesized Content) - **추출된 패턴:** "Distribution Re[[Alignment|Alignment]] and Internal Covariate [[Shift|Shift]] Mitigation" — 각 층을 통과하며 변하는 데이터의 평균과 분산을 특정 범위(보통 평균 0, 분산 1)로 강제로 조정하여, 후속 레이어들이 안정적인 입력 데이터 분포를 바탕으로 학습에만 집중하게 만드는 패턴. - **주요 전략:** - **Batch Normalization:** 미니 배치 단위의 통계량을 사용하여 정규화. CNN 등 일반적인 딥러닝에서 매우 효과적. - **Layer Normalization:** 각 데이터 샘플 내의 모든 특징을 기준으로 정규화. 시퀀스 데이터와 Transformer 아키텍처의 표준. - **Instance Normalization:** 각 채널별로 정규화. 주로 스타일 전이(Style Transfer) 및 생성 모델에서 사용. - **Group Normalization:** 특징 채널을 그룹으로 묶어 정규화. 배치 크기가 매우 작을 때 Batch Norm의 대안으로 활용. - **의의:** 더 깊은 신경망을 더 높은 학습률로 더 빠르게 학습시킬 수 있게 하는 현대 딥러닝 최적화의 핵심 인프라. ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update) - **과거 데이터와의 충돌:** 정규화가 단순히 내부 공변량 변화(Internal Covariate Shift)를 줄이기 때문이라는 초기 가설을 넘어, 실제로는 손실 함수 곡면(Loss Landscape)을 매끄럽게 만들어 최적화를 쉽게 한다는 평탄화(Smoothing) 관점이 현대적 정설임. - **정책 변화:** Antigravity 프로젝트는 대규모 언어 모델 학습 및 추론 시, 연산 효율과 안정성이 입증된 Pre-Layer Normalization 아키텍처를 기본 사양으로 적용함. ## 🔗 지식 연결 (Graph) - [[Layer-Normalization|Layer-Normalization]], Batch-Normalization-Exploration, Deep-Learning-Foundations, [[Gradient-Descent|Gradient-Descent]]-Foundations - **Raw Source:** 10_Wiki/Topics/AI/Normalization-Strategies.md