[G1-Sync] Manual knowledge update

2026-04-30 22:42:02 +09:00
parent 0bd4f19e38
commit c36c0644a1
4888 changed files with 18470 additions and 18602 deletions
@@ -1,8 +1,8 @@
 ---
-id: P-REINFORCE-AUTO-MCMT-001
+id: [[P-Reinforce]]-AUTO-MCMT-001
 category: "10_Wiki/💡 Topics/AI"
 confidence_score: 0.96
-tags: [auto-reinforced, monte-carlo, simulation, probability, statistics, sampling]
+tags: [auto-reinforced, monte-carlo, simulation, probability, [[Statistics]], sampling]
 last_reinforced: 2026-04-20
 ---

@@ -17,15 +17,15 @@ last_reinforced: 2026-04-20
 1.  **동작 원리**:
    *   해결하려는 문제를 확률 모델로 변환.
    *   엄청난 횟수의 무작위 시뮬레이션 수행.
-    *   결과값들의 평균이나 분포를 통해 최종해 도출. (Inferential-Statistics와 연결)
+    *   결과값들의 평균이나 분포를 통해 최종해 도출. ([[Inferential-Statistics]]와 연결)
 2.  **활용 분야**:
    *   복잡한 금융 파생상품 가치 평가, 원자핵 물리 실험 시뮬레이션, 바둑 AI의 수 읽기 등. (Deep Learning (DL)와 연결)

 ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
 - **과거 데이터와의 충돌**: 과거에는 연산 속도 정책 때문에 샘플링 횟수를 제한했으나, 현대 정책은 강력한 컴퓨팅 파워 정책을 바탕으로 수억 번의 시뮬레이션을 돌려 극도의 정밀도 정책을 확보하는 '무차별 대입형 몬테카를로 정책'이 가능해짐(RL Update).
- **정책 변화(RL Update)**: 강화 학습의 핵심인 '몬테카를로 트리 탐색(MCTS)' 정책은 모든 경로를 다 가보는 대신 가망 있는 곳만 무작위로 찔러보며 최적의 수를 찾아냄으로써 알파고 탄생의 결정적 정책 토대가 됨. (Markov-Decision-Processes와 연결)
+- **정책 변화(RL Update)**: 강화 학습의 핵심인 '몬테카를로 트리 탐색(MCTS)' 정책은 모든 경로를 다 가보는 대신 가망 있는 곳만 무작위로 찔러보며 최적의 수를 찾아냄으로써 알파고 탄생의 결정적 정책 토대가 됨. ([[Markov-Decision-Processes]]와 연결)

 ## 🔗 지식 연결 (Graph)
 - [[Inferential-Statistics]], [[Markov-Decision-Processes]], Deep Learning (DL), [[Optimization]], [[Search-Optimization]]
- **Modern Tech/Tools**: MCTS (Monte Carlo Tree Search), Gibbs sampling, Markov Chain Monte Carlo (MCMC).
+- **Modern Tech/Tools**: MCTS (Monte Carlo Tree [[Search]]), Gibbs sampling, Markov Chain Monte Carlo (MCMC).
 ---