bluemsi/2nd

Files

T

Antigravity Agent 6445fcc05b docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links

2026-05-02 09:18:34 +09:00

2.4 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

P-REINFORCE-AUTO-EXEX-001

10_Wiki/💡 Topics/AI

0.96

auto-reinforced

exploration

exploitation

reinforcement-learning

multi-armed-bandit

strategy

2026-04-20

Exploration vs Exploitation

📌 한 줄 통찰 (The Karpathy Summary)

"모험과 안주의 저울질: 이미 알고 있는 최선을 선택하여 확실한 이득을 챙길 것인가(Exploitation), 아니면 더 큰 보상이 있을지 모르는 새로운 영역을 탐험할 것인가(Exploration) 사이의 영원한 전략적 딜레마."

📖 구조화된 지식 (Synthesized Content)

탐사 대 이용(Exploration vs Exploitation)은 강화학습과 의사결정 이론의 핵심적인 트레이드오프 문제입니다.

두 개념:
- Exploitation (이용): 과거 경험상 보상이 가장 컸던 행동을 반복. 단기 수익 최적화.
- Exploration (탐사): 정보가 부족한 새로운 행동을 시도. 장기적인 '더 나은 최적해' 발견 가능성.
해결 전략:
- Epsilon-Greedy: 대부분(1-\epsilon)은 이용하되, 무작위(\epsilon)로 탐사.
- UCB (Upper Confidence Bound): 불확실성(가보지 않은 곳)에 가중치를 두어 탐사 유도.
- Thompson Sampling: 확률 분포를 기반으로 유연하게 선택.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 과거에는 최대한 빠르게 '안주 정책'으로 들어가는 것이 효율적이라 보았으나, 현대 정책은 복잡한 환경일수록 시스템에 '호기심(Curiosity) 정책'을 주입하여 끝까지 탐사하게 하는 것이 궁극의 지능을 만든다고 믿음(RL Update). (Reinforcement Learning과 연결)
정책 변화(RL Update): 비즈니스 전략 정책에서, 기존 수익 모델에 안주하는 것(Exploitation)과 신사업을 발굴하는 것(Exploration) 사이의 '양손잡이 경영 정책'의 이론적 토대가 됨. (Strategic-Planning과 연결)

🔗 지식 연결 (Graph)

Reinforcement Learning (RL), Multi-Armed Bandit (MAB), Decision Theory, Strategic-Planning, Optimization
Modern Tech/Tools: Recommender systems (Exploration balance), A/B testing algorithms.