docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links
This commit is contained in:
@@ -2,11 +2,11 @@
|
||||
id: RL-EX-BAL-001
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 1.0
|
||||
tags: [[[Reinforcement-Learning]], ai, decision-making, exploration, exploitation]
|
||||
tags: [[Reinforcement-Learning|[Reinforcement-Learning]], ai, decision-making, exploration, exploitation]
|
||||
last_reinforced: 2026-04-26
|
||||
---
|
||||
|
||||
# [[Exploration vs Exploitation]] (탐색과 활용의 균형)
|
||||
# [[Exploration vs Exploitation|Exploration vs Exploitation]] (탐색과 활용의 균형)
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "안전한 현재의 수익과 불확실한 미래의 가능성 사이에서 최적의 배팅 지점을 찾아라" — 강화학습의 핵심 딜레마로, 이미 알고 있는 최선의 행동을 반복하여 보상을 얻는 것(Exploitation)과 더 나은 행동을 찾기 위해 새로운 시도를 하는 것(Exploration) 사이의 트레이드오프.
|
||||
@@ -25,5 +25,5 @@ last_reinforced: 2026-04-26
|
||||
- **정책 변화:** Antigravity 프로젝트의 지식 검색 에이전트는 사용자의 질문에 대해 가장 관련성 높은 문서만 보여주는 것(Exploitation)을 넘어, 가끔은 의외의 연결 고리를 가진 문서를 제안(Exploration)하여 창의적 통찰을 돕도록 설계됨.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- [[Reinforcement-Learning]], Q-Learning-Foundations, Multi-Armed-Bandit-MAB, Decision-Making
|
||||
- [[Reinforcement-Learning|Reinforcement-Learning]], Q-Learning-Foundations, Multi-Armed-Bandit-MAB, Decision-Making
|
||||
- **Raw Source:** 10_Wiki/Topics/AI/Exploration-vs-Exploitation.md
|
||||
|
||||
Reference in New Issue
Block a user