2nd/01_Archive/2026-04-20/Grokking (그로킹, 지연 일반화).md

[[Grokking (그로킹, 지연 일반화)|Grokking (그로킹, 지연 일반화)]]

📌 Brief Summary

Grokking은 신경망이 훈련 데이터를 완전히 암기(Memorization)하여 훈련 정확도 100%에 도달한 후에도, 수백~수천 에폭 이후 갑자기 검증 정확도가 급등하여 진정한 일반화(Generalization)에 성공하는 현상이다. 2022년 Power et al.이 수학 연산 태스크에서 발견하였으며, 신경망의 학습 메커니즘에 대한 이해를 새롭게 하는 발견이다.

---

📖 Core Content

## 1. 발견 실험 (원논문)

```
[실험 설정]
  모델: 작은 Transformer
  태스크: 모듈러 산술 (예: (a + b) mod 97)
  데이터: 전체 (97×97=9,409) 중 50%만 훈련

[학습 곡선]

  정확도 (%)
  100 |         훈련 정확도 ─────────────
      |        /
      |       / Grokking!
      |      /         ↑ 갑작스런 급등
   50 |─────/──────────────────────────
      |    /
    0 +──────────────────────── 에폭
      0   100  1000  10000  100000

  → 에폭 100쯤에 훈련 정확도 100% 도달 (암기)
  → 에폭 10000쯤에 검증 정확도 갑자기 100% 도달 (일반화)
```

---

## 2. Grokking의 두 단계

```
[Phase 1: Memorization (암기)]
  에폭 0~100:
  모델이 훈련 데이터를 그대로 외움
  → 훈련 정확도 100%, 검증 정확도 낮음
  → 일반화 능력 없음

[Phase 2: Grokking (일반화)]
  에폭 100~10,000:
  내부 표현이 조용히 재구성됨
  → "암기 회로" 붕괴 + "일반화 회로" 강화
  → 갑작스러운 검증 정확도 급등
```

---

## 3. 발생 원인 (Mechanistic Interpretability 관점)

Nanda et al. (2023) - "Progress measures for grokking via mechanistic interpretability":

```
[분석 결과]
  훈련 데이터 암기 회로 (Memorization Circuit)
    후기까지 존재하다가 Weight Decay에 의해 서서히 압축

  일반화 회로 (Generalization Circuit)
    초기부터 천천히 발달
    → 특정 임계점에서 암기 회로를 대체

[결론]
  두 회로가 경쟁 → Generalization Circuit 승리 시 Grokking 발생
  (Weight Decay가 암기 회로 억제 → Grokking 촉진 역할)
```

---

## 4. Grokking과 LLM 학습의 시사점

| 시사점 | 내용 |
|--------|------|
| **Early Stopping 위험** | 훈련 손실 수렴 ≠ 일반화 완료 → 조기 종료 시 암기 모델 |
| **Weight Decay 중요성** | Weight Decay가 Grokking 가속 (일반화 회로 경쟁 유리) |
| **대규모 LLM** | SFT 단계에서 보이지 않는 Grokking과 유사 현상 추정 |
| **창발 능력** | 특정 모델 크기에서 갑작스러운 능력 출현 = Grokking과 유사 |

---

## 5. 인과관계 (Grokking이 AI 이해에 미치는 영향)

```
[기존 가정]
  "훈련 정확도 포화 = 학습 완료"
        ↓
[Grokking 발견 후]
  훈련 정확도 포화 ≠ 일반화 완료
  → 더 오래 훈련 시 갑자기 일반화 발생 가능
        ↓
  Early Stopping 기준 재고 필요
  Weight Decay 전략의 새로운 중요성 부각
        ↓
  신경망이 단순히 "패턴 암기기계"가 아닌
  "내부적으로 일반화 알고리즘을 발견"한다는 증거
```

---

🔗 Knowledge Connections

- **Related Topics:** [[Mechanistic Interpretability (기계적 해석 가능성)|Mechanistic Interpretability (기계적 해석 가능성)]], [[AI Safety (AI 안전)|AI Safety (AI 안전)]], [[SFT (Supervised Fine-Tuning)|SFT (Supervised Fine-Tuning)]], [[강화학습 (Reinforcement Learning)|강화학습 (Reinforcement Learning)]], [[In-Context Learning (ICL, 문맥 내 학습)|In-Context Learning (ICL, 문맥 내 학습)]], [[LLM Alignment (LLM 정렬)|LLM Alignment (LLM 정렬)]]
- **Projects/Contexts:** AI 신뢰성·투명성
- **Contradictions/Notes:**
  - Grokking은 주로 소규모 모델·단순 태스크에서 확인 → 대규모 LLM에서 동일 현상이 발생하는지는 연구 중.
  - 매우 오랜 훈련이 필요하므로 실용적 LLM 훈련에서 의도적으로 Grokking을 기다리는 것은 비현실적.
  - **신규 키워드**: `Weight Decay (가중치 감쇠)`, `창발 능력 (Emergent Abilities)`, `Early Stopping` → 탐색 큐 추가.