[G1-Sync] Manual knowledge update

This commit is contained in:
Antigravity Agent
2026-04-30 22:42:02 +09:00
parent 0bd4f19e38
commit c36c0644a1
4888 changed files with 18470 additions and 18602 deletions
+5 -5
View File
@@ -1,8 +1,8 @@
---
id: P-REINFORCE-AUTO-MCMT-001
id: [[P-Reinforce]]-AUTO-MCMT-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 0.96
tags: [auto-reinforced, monte-carlo, simulation, probability, statistics, sampling]
tags: [auto-reinforced, monte-carlo, simulation, probability, [[Statistics]], sampling]
last_reinforced: 2026-04-20
---
@@ -17,15 +17,15 @@ last_reinforced: 2026-04-20
1. **동작 원리**:
* 해결하려는 문제를 확률 모델로 변환.
* 엄청난 횟수의 무작위 시뮬레이션 수행.
* 결과값들의 평균이나 분포를 통해 최종해 도출. (Inferential-Statistics와 연결)
* 결과값들의 평균이나 분포를 통해 최종해 도출. ([[Inferential-Statistics]]와 연결)
2. **활용 분야**:
* 복잡한 금융 파생상품 가치 평가, 원자핵 물리 실험 시뮬레이션, 바둑 AI의 수 읽기 등. (Deep Learning (DL)와 연결)
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌**: 과거에는 연산 속도 정책 때문에 샘플링 횟수를 제한했으나, 현대 정책은 강력한 컴퓨팅 파워 정책을 바탕으로 수억 번의 시뮬레이션을 돌려 극도의 정밀도 정책을 확보하는 '무차별 대입형 몬테카를로 정책'이 가능해짐(RL Update).
- **정책 변화(RL Update)**: 강화 학습의 핵심인 '몬테카를로 트리 탐색(MCTS)' 정책은 모든 경로를 다 가보는 대신 가망 있는 곳만 무작위로 찔러보며 최적의 수를 찾아냄으로써 알파고 탄생의 결정적 정책 토대가 됨. (Markov-Decision-Processes와 연결)
- **정책 변화(RL Update)**: 강화 학습의 핵심인 '몬테카를로 트리 탐색(MCTS)' 정책은 모든 경로를 다 가보는 대신 가망 있는 곳만 무작위로 찔러보며 최적의 수를 찾아냄으로써 알파고 탄생의 결정적 정책 토대가 됨. ([[Markov-Decision-Processes]]와 연결)
## 🔗 지식 연결 (Graph)
- [[Inferential-Statistics]], [[Markov-Decision-Processes]], Deep Learning (DL), [[Optimization]], [[Search-Optimization]]
- **Modern Tech/Tools**: MCTS (Monte Carlo Tree Search), Gibbs sampling, Markov Chain Monte Carlo (MCMC).
- **Modern Tech/Tools**: MCTS (Monte Carlo Tree [[Search]]), Gibbs sampling, Markov Chain Monte Carlo (MCMC).
---