docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links
This commit is contained in:
@@ -6,7 +6,7 @@ tags: [auto-reinforced, reinforcement-learning, machine-learning, ai-training, o
|
||||
last_reinforced: 2026-04-20
|
||||
---
|
||||
|
||||
# [[Reinforcement Learning (RL)]]
|
||||
# [[Reinforcement Learning (RL)|Reinforcement Learning (RL)]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "시행착오를 통한 지능의 획득: 데이터가 아닌 '보상'이라는 피드백을 나침반 삼아, 에이전트가 환경과 상호작용하며 스스로 최후의 승리 전략을 깨우쳐가는 야생의 학습법."
|
||||
@@ -31,6 +31,6 @@ last_reinforced: 2026-04-20
|
||||
- **정책 변화(RL Update)**: 보상만을 쫓는 에이전트가 예상치 못한 위험(Safety Violation)을 저지르는 것을 막기 위해, 수치화된 보상 뒤에 '인간의 윤리적 제약'을 프로그래밍하는 '정렬(Alignment) 정책'이 RL 연구의 최우선 순위로 부상함.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- [[Proximal Policy Optimization (PPO)]], [[Policy-Optimization]], [[Ps-Reinforce]], Neurobiology of Reward, Game Theory
|
||||
- [[Proximal Policy Optimization (PPO)|Proximal Policy Optimization (PPO)]], [[Policy-Optimization|Policy-Optimization]], [[Ps-Reinforce|Ps-Reinforce]], Neurobiology of Reward, Game Theory
|
||||
- **Modern Tech/Tools**: Gymnasium (OpenAI Gym), DeepMind MuJoCo, Ray Rllib.
|
||||
---
|
||||
|
||||
Reference in New Issue
Block a user