Phase Transitions in Learning (학습에서의 상전이 현상)

📌 한 줄 통찰 (The Karpathy Summary)

"지루한 정체기 끝에 갑작스러운 깨달음(Grokking)이 찾아오듯, 모델의 지능은 선형적인 성장이 아닌 폭발적인 '상전이'를 통해 도약한다" — 학습 과정에서 손실 함수가 완만하게 줄어들다가 특정 임계점에서 모델의 내부 구조나 일반화 능력이 급격히 변화하는 현상.

추출된 패턴: "Abrupt Structural and Functional Transformation" — 물리적 상전이(얼음이 물이 되는 것)와 유사하게, 신경망이 무작위적인 상태에서 질서 있는 내부 표상(Representation)을 형성하거나, 특정 규모 이상의 데이터/파라미터에서 '창발적 능력(Emergent Abilities)'을 획득하는 패턴.
주요 현상:
- Grokking: 학습 데이터를 다 외운(Overfitting) 이후에도 한참 더 학습시켰을 때, 갑자기 일반화 성능이 급상승하는 현상.
- Scaling Laws: 모델 크기나 연산량이 임계치를 넘을 때 추론 능력이 비약적으로 발전.
- Double Descent: 모델 복잡도가 증가함에 따라 테스트 오차가 감소하다 증가하고, 다시 감소하는 현상.
의의: AI 학습을 단순히 오차를 줄이는 과정이 아닌, 지능이 형성되는 동역학적 '진화'의 과정으로 이해하게 하며, 초거대 모델의 잠재력을 예측하는 지표가 됨.

과거 데이터와의 충돌: 학습이 오래될수록 무조건 성능이 나빠진다는 초기 과적합 이론을 정면으로 반박하며, 현대 딥러닝에서는 '상전이'를 유도하기 위한 충분한 과잉 학습(Over-training)의 가치가 재발견됨.
정책 변화: Antigravity 프로젝트는 에이전트의 새로운 스킬 학습 시, 단순 수렴 지점을 넘어 상전이 현상이 발생하는 '깊은 학습' 구간까지 모니터링하여 최적의 통찰 수준을 확보함.

Overfitting-and-Underfitting, Deep-Learning-Foundations, Emergent-Abilities-in-LLM, Optimization-in-AI
Raw Source: 10_Wiki/Topics/AI/Phase-Transitions-in-Learning.md