Files
2nd/10_Wiki/Topics/Monte-Carlo-Methods.md
T
2026-04-30 22:42:02 +09:00

2.2 KiB


id: P-Reinforce-AUTO-MCMT-001 category: "10_Wiki/💡 Topics/AI" confidence_score: 0.96 tags: [auto-reinforced, monte-carlo, simulation, probability, Statistics, sampling] last_reinforced: 2026-04-20

Monte-Carlo-Methods

📌 한 줄 통찰 (The Karpathy Summary)

"무작위성으로 찾아내는 정답: 수식이 복잡해 도저히 풀 수 없는 정답을 구하기 위해, 수만 번 주사위를 던지는 것처럼 무작위 샘플링(Sampling)을 반복하고 그 통계적 결과들을 모아 정답 근사치에 도달하는 확률적 요술."

📖 구조화된 지식 (Synthesized Content)

몬테카를로 방법(Monte-Carlo-Methods)은 무작위 추출된 난수를 이용하여 함수의 값을 계산하는 통계적 기법입니다.

  1. 동작 원리:
    • 해결하려는 문제를 확률 모델로 변환.
    • 엄청난 횟수의 무작위 시뮬레이션 수행.
    • 결과값들의 평균이나 분포를 통해 최종해 도출. (Inferential-Statistics와 연결)
  2. 활용 분야:
    • 복잡한 금융 파생상품 가치 평가, 원자핵 물리 실험 시뮬레이션, 바둑 AI의 수 읽기 등. (Deep Learning (DL)와 연결)

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 과거에는 연산 속도 정책 때문에 샘플링 횟수를 제한했으나, 현대 정책은 강력한 컴퓨팅 파워 정책을 바탕으로 수억 번의 시뮬레이션을 돌려 극도의 정밀도 정책을 확보하는 '무차별 대입형 몬테카를로 정책'이 가능해짐(RL Update).
  • 정책 변화(RL Update): 강화 학습의 핵심인 '몬테카를로 트리 탐색(MCTS)' 정책은 모든 경로를 다 가보는 대신 가망 있는 곳만 무작위로 찔러보며 최적의 수를 찾아냄으로써 알파고 탄생의 결정적 정책 토대가 됨. (Markov-Decision-Processes와 연결)

🔗 지식 연결 (Graph)