--- id: DL-NORM-001 category: "[[10_Wiki/πŸ’‘ Topics/AI]]" confidence_score: 1.0 tags: [ai, deep-learning, normalization, layer-norm, transformer, stability] last_reinforced: 2026-04-26 --- # [[Layer Normalization (λ ˆμ΄μ–΄ μ •κ·œν™”)]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "λ°μ΄ν„°μ˜ 무리λ₯Ό λΉ„κ΅ν•˜μ§€ 말고, 각 μƒ˜ν”Œ λ‚΄λΆ€μ˜ 톡계λ₯Ό 닀듬어 λͺ¨λΈμ˜ ν•™μŠ΅μ„ μ•ˆμ •ν™”ν•˜λΌ" β€” 배치 λ‹¨μœ„κ°€ μ•„λ‹Œ 각 데이터 μƒ˜ν”Œ(Feature) λ‹¨μœ„λ‘œ 평균과 뢄산을 κ³„μ‚°ν•˜μ—¬ μ •κ·œν™”ν•¨μœΌλ‘œμ¨, 배치 크기에 ꡬ애받지 μ•Šκ³  μΌκ΄€λœ ν•™μŠ΅ μ„±λŠ₯을 보μž₯ν•˜λŠ” 기법. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** "Intra-sample Statistics" β€” 배치 μ •κ·œν™”(Batch Norm)κ°€ κ°€μ§„ 배치 크기 μ˜μ‘΄μ„± 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, ν•˜λ‚˜μ˜ μƒ˜ν”Œ λ‚΄ λͺ¨λ“  λ‰΄λŸ°μ˜ ν™œμ„±ν™” 값을 μ •κ·œν™”ν•˜μ—¬ κ°€μ€‘μΉ˜ μ΄ˆκΈ°ν™”λ‚˜ 기울기 μ†Œμ‹€ λ¬Έμ œμ— κ°•κ±΄ν•˜κ²Œ λŒ€μ‘ν•˜λŠ” νŒ¨ν„΄. - **μ£Όμš” νŠΉμ§•:** - **Batch Independence:** 배치 크기가 1이어도 μž‘λ™ν•˜λ―€λ‘œ 온라인 ν•™μŠ΅μ΄λ‚˜ RNN, Transformer에 졜적. - **Computational Efficiency:** ν•™μŠ΅κ³Ό μΆ”λ‘  μ‹œ λ™μΌν•œ λ°©μ‹μœΌλ‘œ μž‘λ™ν•˜μ—¬ κ΅¬ν˜„μ΄ λ‹¨μˆœν•¨. - **Stabilizing Deep Nets:** κΉŠμ€ μ‹ κ²½λ§μ˜ λ‚΄λΆ€ κ³΅λ³€λŸ‰ λ³€ν™”(Internal Covariate Shift)λ₯Ό μ–΅μ œν•˜μ—¬ ν•™μŠ΅ 속도 ν–₯상. - **의의:** ν˜„λŒ€ NLP의 심μž₯인 트랜슀포머 μ•„ν‚€ν…μ²˜μ—μ„œ μ•ˆμ •μ μΈ μ–΄ν…μ…˜ 연산을 κ°€λŠ₯μΌ€ ν•˜λŠ” ν•„μˆ˜ μš”μ†Œ. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** 배치 μ •κ·œν™”κ°€ λͺ¨λ“  κ³³μ—μ„œ μš°μ›”ν•˜λ‹€λŠ” 인식을 κΉ¨κ³ , μ‹œν€€μŠ€ λ°μ΄ν„°λ‚˜ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ—μ„œλŠ” λ ˆμ΄μ–΄ μ •κ·œν™”κ°€ μ‚¬μ‹€μƒμ˜ ν‘œμ€€(Standard)으둜 자리 작음. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈμ˜ λͺ¨λ“  트랜슀포머 기반 μ—μ΄μ „νŠΈ λͺ¨λΈμ€ ν•™μŠ΅μ˜ μ•ˆμ •μ„±κ³Ό λΉ λ₯Έ μˆ˜λ ΄μ„ μœ„ν•΄ λͺ¨λ“  μ–΄ν…μ…˜ 블둝 직후에 λ ˆμ΄μ–΄ μ •κ·œν™” 측을 λ°°μΉ˜ν•¨. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Transformer-Architecture-Foundations]], [[Deep-Learning-Foundations]], [[Batch-Normalization-Foundations]], [[Weight-Initialization-Strategies]] - **Raw Source:** [[10_Wiki/Topics/AI/Layer-Normalization.md]]