id: P-Reinforce-AUTO-EXEX-001 category: Unified confidence_score: 0.96 tags: [auto-reinforced, exploration, exploitation, Reinforcement-Learning, multi-armed-bandit, Strategy] last_reinforced: 2026-04-20

두 개념: Exploitation (이용) : 과거 경험상 보상이 가장 컸던 행동을 반복. 단기 수익 최적화. Exploration (탐사) : 정보가 부족한 새로운 행동을 시도. 장기적인 &#39;더 나은 최적해&#39; 발견 가능성.
해결 전략: Epsilon-Greedy : 대부분( 1-\epsilon )은 이용하되, 무작위( \epsilon )로 탐사. UCB (Upper Confidence Bound) : 불확실성(가보지 않은 곳)에 가중치를 두어 탐사 유도. Thompson Sampling : 확률 분포를 기반으로 유연하게 선택.

Exploration vs Exploitation

"모험과 안주의 저울질: 이미 알고 있는 최선을 선택하여 확실한 이득을 챙길 것인가(Exploitation), 아니면 더 큰 보상이 있을지 모르는 새로운 영역을 탐험할 것인가(Exploration) 사이의 영원한 전략적 딜레마."

탐사 대 이용(Exploration vs Exploitation)은 강화학습과 의사결정 이론의 핵심적인 트레이드오프 문제입니다.