--- id: DL-NORM-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [ai, [[Deep-Learning|Deep-Learning]], [[Normalization|Normalization]], batch-norm, layer-norm, training-Stability] last_reinforced: 2026-04-26 --- # Normalization Strategies (μ •κ·œν™” μ „λž΅) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "λ°μ΄ν„°μ˜ 날것 κ·ΈλŒ€λ‘œμ˜ μš”λ™μ„ μ°¨λΆ„νžˆ κΈΈλ“€μ—¬, 신경망이 ν˜Όλž€ 없이 졜적의 κΈΈ(Gradient)을 찾도둝 ν•˜λΌ" β€” 신경망 λ‚΄λΆ€μ˜ 데이터 뢄포λ₯Ό μΌμ •ν•˜κ²Œ μœ μ§€ν•¨μœΌλ‘œμ¨ ν•™μŠ΅ 속도λ₯Ό 높이고 기울기 μ†Œμ‹€/폭주 문제λ₯Ό μ™„ν™”ν•˜μ—¬ λͺ¨λΈμ˜ 수렴 μ•ˆμ •μ„±μ„ κ·ΉλŒ€ν™”ν•˜λŠ” 기법. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** "Distribution Re[[Alignment|Alignment]] and Internal Covariate [[Shift|Shift]] Mitigation" β€” 각 측을 ν†΅κ³Όν•˜λ©° λ³€ν•˜λŠ” λ°μ΄ν„°μ˜ 평균과 뢄산을 νŠΉμ • λ²”μœ„(보톡 평균 0, λΆ„μ‚° 1)둜 κ°•μ œλ‘œ μ‘°μ •ν•˜μ—¬, 후속 λ ˆμ΄μ–΄λ“€μ΄ μ•ˆμ •μ μΈ μž…λ ₯ 데이터 뢄포λ₯Ό λ°”νƒ•μœΌλ‘œ ν•™μŠ΅μ—λ§Œ μ§‘μ€‘ν•˜κ²Œ λ§Œλ“œλŠ” νŒ¨ν„΄. - **μ£Όμš” μ „λž΅:** - **Batch Normalization:** λ―Έλ‹ˆ 배치 λ‹¨μœ„μ˜ ν†΅κ³„λŸ‰μ„ μ‚¬μš©ν•˜μ—¬ μ •κ·œν™”. CNN λ“± 일반적인 λ”₯λŸ¬λ‹μ—μ„œ 맀우 효과적. - **Layer Normalization:** 각 데이터 μƒ˜ν”Œ λ‚΄μ˜ λͺ¨λ“  νŠΉμ§•μ„ κΈ°μ€€μœΌλ‘œ μ •κ·œν™”. μ‹œν€€μŠ€ 데이터와 Transformer μ•„ν‚€ν…μ²˜μ˜ ν‘œμ€€. - **Instance Normalization:** 각 μ±„λ„λ³„λ‘œ μ •κ·œν™”. 주둜 μŠ€νƒ€μΌ 전이(Style Transfer) 및 생성 λͺ¨λΈμ—μ„œ μ‚¬μš©. - **Group Normalization:** νŠΉμ§• 채널을 그룹으둜 λ¬Άμ–΄ μ •κ·œν™”. 배치 크기가 맀우 μž‘μ„ λ•Œ Batch Norm의 λŒ€μ•ˆμœΌλ‘œ ν™œμš©. - **의의:** 더 κΉŠμ€ 신경망을 더 높은 ν•™μŠ΅λ₯ λ‘œ 더 λΉ λ₯΄κ²Œ ν•™μŠ΅μ‹œν‚¬ 수 있게 ν•˜λŠ” ν˜„λŒ€ λ”₯λŸ¬λ‹ μ΅œμ ν™”μ˜ 핡심 인프라. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** μ •κ·œν™”κ°€ λ‹¨μˆœνžˆ λ‚΄λΆ€ κ³΅λ³€λŸ‰ λ³€ν™”(Internal Covariate Shift)λ₯Ό 쀄이기 λ•Œλ¬Έμ΄λΌλŠ” 초기 가섀을 λ„˜μ–΄, μ‹€μ œλ‘œλŠ” 손싀 ν•¨μˆ˜ 곑면(Loss Landscape)을 λ§€λ„λŸ½κ²Œ λ§Œλ“€μ–΄ μ΅œμ ν™”λ₯Ό μ‰½κ²Œ ν•œλ‹€λŠ” 평탄화(Smoothing) 관점이 ν˜„λŒ€μ  μ •μ„€μž„. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ ν•™μŠ΅ 및 μΆ”λ‘  μ‹œ, μ—°μ‚° 효율과 μ•ˆμ •μ„±μ΄ μž…μ¦λœ Pre-Layer Normalization μ•„ν‚€ν…μ²˜λ₯Ό κΈ°λ³Έ μ‚¬μ–‘μœΌλ‘œ μ μš©ν•¨. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Layer-Normalization|Layer-Normalization]], Batch-Normalization-Exploration, Deep-Learning-Foundations, [[Gradient-Descent|Gradient-Descent]]-Foundations - **Raw Source:** 10_Wiki/Topics/AI/Normalization-Strategies.md