4.0 KiB
4.0 KiB
📌 Brief Summary
Grokking은 신경망이 훈련 데이터를 완전히 암기(Memorization)하여 훈련 정확도 100%에 도달한 후에도, 수백~수천 에폭 이후 갑자기 검증 정확도가 급등하여 진정한 일반화(Generalization)에 성공하는 현상이다. 2022년 Power et al.이 수학 연산 태스크에서 발견하였으며, 신경망의 학습 메커니즘에 대한 이해를 새롭게 하는 발견이다.
📖 Core Content
1. 발견 실험 (원논문)
[실험 설정]
모델: 작은 Transformer
태스크: 모듈러 산술 (예: (a + b) mod 97)
데이터: 전체 (97×97=9,409) 중 50%만 훈련
[학습 곡선]
정확도 (%)
100 | 훈련 정확도 ─────────────
| /
| / Grokking!
| / ↑ 갑작스런 급등
50 |─────/──────────────────────────
| /
0 +──────────────────────── 에폭
0 100 1000 10000 100000
→ 에폭 100쯤에 훈련 정확도 100% 도달 (암기)
→ 에폭 10000쯤에 검증 정확도 갑자기 100% 도달 (일반화)
2. Grokking의 두 단계
[Phase 1: Memorization (암기)]
에폭 0~100:
모델이 훈련 데이터를 그대로 외움
→ 훈련 정확도 100%, 검증 정확도 낮음
→ 일반화 능력 없음
[Phase 2: Grokking (일반화)]
에폭 100~10,000:
내부 표현이 조용히 재구성됨
→ "암기 회로" 붕괴 + "일반화 회로" 강화
→ 갑작스러운 검증 정확도 급등
3. 발생 원인 (Mechanistic Interpretability 관점)
Nanda et al. (2023) - "Progress measures for grokking via mechanistic interpretability":
[분석 결과]
훈련 데이터 암기 회로 (Memorization Circuit)
후기까지 존재하다가 Weight Decay에 의해 서서히 압축
일반화 회로 (Generalization Circuit)
초기부터 천천히 발달
→ 특정 임계점에서 암기 회로를 대체
[결론]
두 회로가 경쟁 → Generalization Circuit 승리 시 Grokking 발생
(Weight Decay가 암기 회로 억제 → Grokking 촉진 역할)
4. Grokking과 LLM 학습의 시사점
| 시사점 | 내용 |
|---|---|
| Early Stopping 위험 | 훈련 손실 수렴 ≠ 일반화 완료 → 조기 종료 시 암기 모델 |
| Weight Decay 중요성 | Weight Decay가 Grokking 가속 (일반화 회로 경쟁 유리) |
| 대규모 LLM | SFT 단계에서 보이지 않는 Grokking과 유사 현상 추정 |
| 창발 능력 | 특정 모델 크기에서 갑작스러운 능력 출현 = Grokking과 유사 |
5. 인과관계 (Grokking이 AI 이해에 미치는 영향)
[기존 가정]
"훈련 정확도 포화 = 학습 완료"
↓
[Grokking 발견 후]
훈련 정확도 포화 ≠ 일반화 완료
→ 더 오래 훈련 시 갑자기 일반화 발생 가능
↓
Early Stopping 기준 재고 필요
Weight Decay 전략의 새로운 중요성 부각
↓
신경망이 단순히 "패턴 암기기계"가 아닌
"내부적으로 일반화 알고리즘을 발견"한다는 증거
🔗 Knowledge Connections
- Related Topics: Mechanistic Interpretability (기계적 해석 가능성), AI Safety (AI 안전), SFT (Supervised Fine-Tuning), 강화학습 (Reinforcement Learning), In-Context Learning (ICL, 문맥 내 학습), LLM Alignment (LLM 정렬)
- Projects/Contexts: AI 신뢰성·투명성
- Contradictions/Notes:
- Grokking은 주로 소규모 모델·단순 태스크에서 확인 → 대규모 LLM에서 동일 현상이 발생하는지는 연구 중.
- 매우 오랜 훈련이 필요하므로 실용적 LLM 훈련에서 의도적으로 Grokking을 기다리는 것은 비현실적.
- 신규 키워드:
Weight Decay (가중치 감쇠),창발 능력 (Emergent Abilities),Early Stopping→ 탐색 큐 추가.