32 lines
2.2 KiB
Markdown
32 lines
2.2 KiB
Markdown
---
|
|
id: P-REINFORCE-AUTO-MCMT-001
|
|
category: "10_Wiki/💡 Topics/AI"
|
|
confidence_score: 0.96
|
|
tags: [auto-reinforced, monte-carlo, simulation, probability, statistics, sampling]
|
|
last_reinforced: 2026-04-20
|
|
---
|
|
|
|
# [[Monte-Carlo-Methods|Monte-Carlo-Methods]]
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "무작위성으로 찾아내는 정답: 수식이 복잡해 도저히 풀 수 없는 정답을 구하기 위해, 수만 번 주사위를 던지는 것처럼 무작위 샘플링(Sampling)을 반복하고 그 통계적 결과들을 모아 정답 근사치에 도달하는 확률적 요술."
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
몬테카를로 방법(Monte-Carlo-Methods)은 무작위 추출된 난수를 이용하여 함수의 값을 계산하는 통계적 기법입니다.
|
|
|
|
1. **동작 원리**:
|
|
* 해결하려는 문제를 확률 모델로 변환.
|
|
* 엄청난 횟수의 무작위 시뮬레이션 수행.
|
|
* 결과값들의 평균이나 분포를 통해 최종해 도출. (Inferential-Statistics와 연결)
|
|
2. **활용 분야**:
|
|
* 복잡한 금융 파생상품 가치 평가, 원자핵 물리 실험 시뮬레이션, 바둑 AI의 수 읽기 등. (Deep Learning (DL)와 연결)
|
|
|
|
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
|
- **과거 데이터와의 충돌**: 과거에는 연산 속도 정책 때문에 샘플링 횟수를 제한했으나, 현대 정책은 강력한 컴퓨팅 파워 정책을 바탕으로 수억 번의 시뮬레이션을 돌려 극도의 정밀도 정책을 확보하는 '무차별 대입형 몬테카를로 정책'이 가능해짐(RL Update).
|
|
- **정책 변화(RL Update)**: 강화 학습의 핵심인 '몬테카를로 트리 탐색(MCTS)' 정책은 모든 경로를 다 가보는 대신 가망 있는 곳만 무작위로 찔러보며 최적의 수를 찾아냄으로써 알파고 탄생의 결정적 정책 토대가 됨. (Markov-Decision-Processes와 연결)
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- [[Inferential-Statistics|Inferential-Statistics]], [[Markov-Decision-Processes|Markov-Decision-Processes]], Deep Learning (DL), [[Optimization|Optimization]], [[Search-Optimization|Search-Optimization]]
|
|
- **Modern Tech/Tools**: MCTS (Monte Carlo Tree Search), Gibbs sampling, Markov Chain Monte Carlo (MCMC).
|
|
---
|