chore(wiki): reinforce knowledge batch #15 (300 docs milestone reached)
This commit is contained in:
@@ -1,28 +1,28 @@
|
||||
---
|
||||
id: LAYER-NORM-001
|
||||
id: DL-NORM-001
|
||||
category: "[[10_Wiki/💡 Topics/AI]]"
|
||||
confidence_score: 1.0
|
||||
tags: [deep-learning, normalization, transformer, neural-networks]
|
||||
tags: [ai, deep-learning, normalization, layer-norm, transformer, stability]
|
||||
last_reinforced: 2026-04-26
|
||||
---
|
||||
|
||||
# [[Layer Normalization (레이어 정규화)]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "모델 내부의 데이터 흐름을 일정하게 제어하여 학습의 안정성을 확보하라" — 각 샘플 내의 피처(Feature)들을 대상으로 평균과 분산을 계산하여 정규화함으로써, 깊은 신경망에서도 학습이 빠르고 안정적으로 이루어지게 돕는 기법.
|
||||
> "데이터의 무리를 비교하지 말고, 각 샘플 내부의 통계를 다듬어 모델의 학습을 안정화하라" — 배치 단위가 아닌 각 데이터 샘플(Feature) 단위로 평균과 분산을 계산하여 정규화함으로써, 배치 크기에 구애받지 않고 일관된 학습 성능을 보장하는 기법.
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
- **추출된 패턴:** 배치 크기에 의존하지 않고 개별 데이터 샘플 내부의 정보만으로 정규화를 수행하여, 트랜스포머와 같은 복잡한 아키텍처와 가변 길이 데이터에서 일관된 성능을 보장하는 패턴.
|
||||
- **세부 내용:**
|
||||
- **vs Batch Normalization:** 배치는 샘플 간(Across samples) 정규화를 하지만, 레이어 정규화는 샘플 내(Within sample) 피처 간 정규화를 함.
|
||||
- **Transformer Essential:** 거의 모든 현대 LLM(GPT, BERT 등) 아키텍처에서 안정적인 학습을 위해 필수적으로 채택됨.
|
||||
- **Scale & Shift:** 정규화 후 학습 가능한 파라미터($\gamma, \beta$)를 통해 모델이 최적의 데이터 분포를 스스로 찾게 함.
|
||||
- **Inference Stability:** 추론 시에도 학습 시와 동일한 방식으로 동작하므로 일관된 결과를 얻을 수 있음.
|
||||
- **추출된 패턴:** "Intra-sample Statistics" — 배치 정규화(Batch Norm)가 가진 배치 크기 의존성 문제를 해결하기 위해, 하나의 샘플 내 모든 뉴런의 활성화 값을 정규화하여 가중치 초기화나 기울기 소실 문제에 강건하게 대응하는 패턴.
|
||||
- **주요 특징:**
|
||||
- **Batch Independence:** 배치 크기가 1이어도 작동하므로 온라인 학습이나 RNN, Transformer에 최적.
|
||||
- **Computational Efficiency:** 학습과 추론 시 동일한 방식으로 작동하여 구현이 단순함.
|
||||
- **Stabilizing Deep Nets:** 깊은 신경망의 내부 공변량 변화(Internal Covariate Shift)를 억제하여 학습 속도 향상.
|
||||
- **의의:** 현대 NLP의 심장인 트랜스포머 아키텍처에서 안정적인 어텐션 연산을 가능케 하는 필수 요소.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
||||
- **과거 데이터와의 충돌:** 배치 정규화가 대세였던 시기를 지나, 순차적 데이터(RNN)와 트랜스포머 구조가 주류가 되면서 레이어 정규화가 표준으로 자리 잡음.
|
||||
- **정책 변화:** Antigravity 프로젝트에서 사용하는 모델들의 가중치 분석 시, 레이어 정규화 층의 활성화 값을 모니터링하여 학습 포화 상태를 진단함.
|
||||
- **과거 데이터와의 충돌:** 배치 정규화가 모든 곳에서 우월하다는 인식을 깨고, 시퀀스 데이터나 대규모 언어 모델에서는 레이어 정규화가 사실상의 표준(Standard)으로 자리 잡음.
|
||||
- **정책 변화:** Antigravity 프로젝트의 모든 트랜스포머 기반 에이전트 모델은 학습의 안정성과 빠른 수렴을 위해 모든 어텐션 블록 직후에 레이어 정규화 층을 배치함.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- [[Batch-Normalization]], [[Transformer-Architecture]], [[Optimization]], [[Deep-Learning]]
|
||||
- [[Transformer-Architecture-Foundations]], [[Deep-Learning-Foundations]], [[Batch-Normalization-Foundations]], [[Weight-Initialization-Strategies]]
|
||||
- **Raw Source:** [[10_Wiki/Topics/AI/Layer-Normalization.md]]
|
||||
|
||||
Reference in New Issue
Block a user