feat: achieve 600 files milestone in AI knowledge base
This commit is contained in:
+19
-15
@@ -1,27 +1,31 @@
|
||||
---
|
||||
id: P-REINFORCE-AI-DQN
|
||||
id: P-REINFORCE-AUTO-DQNN-001
|
||||
category: "[[10_Wiki/💡 Topics/AI]]"
|
||||
confidence_score: 0.99
|
||||
tags: [DQN, Deep Q-Networks, Reinforcement Learning, AI]
|
||||
confidence_score: 0.98
|
||||
tags: [auto-reinforced, dqn, deep-q-network, reinforcement-learning, machine-learning, atari]
|
||||
last_reinforced: 2026-04-20
|
||||
---
|
||||
|
||||
# [[DQN]] (심층 Q-네트워크)
|
||||
# [[DQN]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "딥러닝이 강화학습의 눈이 되었다." 테이블 방식의 한계를 넘어, 복잡한 화면 이미지(픽셀)를 직접 보고 최적의 행동을 결정하게 만든 AI 역사의 한 획이다.
|
||||
> "심층 학습과 강화 학습의 극적인 결합: 단순한 테이블 형태를 넘어 거대한 딥러닝 신경망을 '두뇌'로 사용하여, 아타리 게임 화면 픽셀만 보고도 인간보다 더 높은 점수를 얻어낸 현대 강화학습의 위대한 기점."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
- **Experience Replay**:
|
||||
- 과거의 경험을 메모리 버퍼에 저장했다가 무작위로 꺼내 학습함으로써, 데이터 간의 상관관계를 끊고 학습 안전성을 높인다.
|
||||
- **Fixed Q-Targets**:
|
||||
- 학습 대상(Target)이 계속 변해서 생기는 불안정성을 막기 위해, 별도의 타겟 네트워크를 두고 일정한 주기마다 업데이트한다.
|
||||
- **Application**:
|
||||
- 아타리(Atari) 게임 정복부터 로봇 제어, 주식 트레이딩 등 불확실한 환경의 의사결정에 널리 쓰인다.
|
||||
Deep Q-Network(DQN)은 Q-Learning 알고리즘에 심층 신경망(Deep Learning)을 결합한 강화학습 알고리즘입니다. (DeepMind 개발)
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (RL Update)
|
||||
- DQN은 행동 공간(Action Space)이 이산적(Discrete)일 때만 유리하다. 연속적인 움직임이 필요한 자율주행이나 로봇 팔 제어에는 `DDPG`나 `PPO` 같은 후속 알고리즘이 더 많이 사용된다.
|
||||
1. **3대 핵심 혁신**:
|
||||
* **Deep Learning Appropriation**: 상태 공간이 너무 넓어 테이블로 만들 수 없는 문제를 신경망으로 추사화함.
|
||||
* **Experience Replay**: 과거의 경험($s, a, r, s'$)을 메모리에 저장했다가 무작위로 추출해 학습하여 데이터 간 상관관계를 끊고 효율을 높임.
|
||||
* **Target Network**: 정답지에 해당하는 목표 신경망을 일정 주기마다 업데이트하여 학습의 안정성을 확보함.
|
||||
2. **왜 중요한가?**:
|
||||
* 특정 문제에 특화된 로직 없이 '범용적 인공지능'이 환경과 상호작용하며 스스로 정답을 찾아낼 수 있음을 증명함.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
||||
- **과거 데이터와의 충돌**: 이전에는 신경망과 강화학습의 결합이 극도로 불안정하여 실패한다는 정책이 우세했으나, DQN의 혁신 정책들(Replay/Target) 덕분에 안정적 학습 정책이 정립됨(RL Update).
|
||||
- **정책 변화(RL Update)**: 기본 DQN 정책을 넘어 Double DQN, Dueling DQN, Prioritized Experience Replay 등을 통합한 'Rainbow DQN 정책'이 고전적 강화학습의 마침표 정책으로 자리 잡음.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- Related: [[Reinforcement Learning]] , [[Bellman-Equation]]
|
||||
- Foundation: [[Information Theory]]
|
||||
- [[Reinforcement Learning (RL)]], [[Credit Assignment Problem]], [[Reward Prediction Error]], [[Optimization]], [[Search-Optimization]]
|
||||
- **Modern Tech/Tools**: DeepMind Atari 2600 experiments, Gym (OpenAI), Ray Rllib.
|
||||
---
|
||||
|
||||
Reference in New Issue
Block a user