[G1-Sync] Manual knowledge update

This commit is contained in:
Antigravity Agent
2026-04-30 22:42:02 +09:00
parent 0bd4f19e38
commit c36c0644a1
4888 changed files with 18470 additions and 18602 deletions
+5 -5
View File
@@ -1,8 +1,8 @@
---
id: P-REINFORCE-AUTO-OPCO-001
id: [[P-Reinforce]]-AUTO-OPCO-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 0.95
tags: [auto-reinforced, opportunity-cost, economics, decision-making, tradeoffs, resource-allocation]
tags: [auto-reinforced, opport[[Unity]]-cost, economics, decision-making, tradeoffs, [[Resource-Allocation]]]
last_reinforced: 2026-04-20
---
@@ -16,13 +16,13 @@ last_reinforced: 2026-04-20
1. **계산 공식**: 기회비용 = 명시적 비용(심리적/금전적 지출) + 암묵적 비용(포기한 잠재적 이익).
2. **왜 중요한가?**:
* 세상에 공짜 점심은 없으며(Trade-offs), 현재의 행동이 최선인지를 판단하려면 단순히 들어간 비용이 아니라 '포기한 가능성'과 비교해야 하기 때문임. (Judgment와 연결)
* 세상에 공짜 점심은 없으며(Trade-offs), 현재의 행동이 최선인지를 판단하려면 단순히 들어간 비용이 아니라 '포기한 가능성'과 비교해야 하기 때문임. ([[Judgment]]와 연결)
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌**: 과거에는 눈에 보이는 회계적 지출 정책만 중시했으나, 현대 정책은 보이지 않는 '시간의 가치 정책'과 '성장 기회의 가치 정책'을 기회비용 정책의 핵심으로 봄(RL Update).
- **정책 변화(RL Update)**: 머신러닝의 탐색(Exploration)과 활용(Exploitation) 딜레마 정책에서, 새로운 시도를 하지 않을 때의 기회비용(Regret)을 최소화하는 전략 정책이 알고리즘 설계의 표준 정책이 됨. (Reinforcement Learning (RL)와 연결)
- **정책 변화(RL Update)**: 머신러닝의 탐색(Exploration)과 활용(Exploitation) 딜레마 정책에서, 새로운 시도를 하지 않을 때의 기회비용(Regret)을 최소화하는 전략 정책이 알고리즘 설계의 표준 정책이 됨. ([[Reinforcement Learning (RL)]]와 연결)
## 🔗 지식 연결 (Graph)
- [[Judgment]], [[Economic-Analysis]], [[Reinforcement Learning (RL)]], [[Decision Theory]], [[Efficiency]]
- **Modern Tech/Tools**: Cost-benefit analysis, Multi-armed bandit (MAB) algorithms, Portfolio optimization.
- **Modern Tech/Tools**: Cost-benefit [[Analysis]], Multi-armed bandit (MAB) algorithms, Portfolio [[Optimization]].
---