49 lines
3.4 KiB
Markdown
49 lines
3.4 KiB
Markdown
---
|
|
category: Unified
|
|
tags: [auto-consolidated, technical-documentation]
|
|
title: [[Deep Q-Networks (DQN)|Deep Q-Networks (DQN)]]
|
|
last_updated: 2026-05-02
|
|
---
|
|
|
|
# [[Deep Q-Networks (DQN)|Deep Q-Networks (DQN)]]
|
|
|
|
## 📌 Brief Summary
|
|
> "고전 게임기를 정복한 딥러닝과 강화학습의 사상 첫 번째 결합." 상태 가치를 예측하는 고전적인 Q-Learning에 심층 신경망을 도입하여 픽셀 정보만으로 인간 이상의 게임 실력을 달성한 기념비적 논문이다.
|
|
|
|
---
|
|
|
|
> "강화학습의 의사결정 테이블을 거대 신경망으로 대체하여 무한한 복잡성에 도전하라" — 고전적 Q-Learning의 테이블 방식 한계를 딥러닝으로 극복하여, 아타리 게임을 인간 수준으로 정복하며 심층 강화학습(Deep RL)의 시대를 연 모델.
|
|
|
|
## 📖 Core Content
|
|
- **Key [[Innovation|Innovation]]s**:
|
|
- **Deep Neural Network as Q-Function**: 복잡하고 고차원적인 상태(예: 화면 픽셀)를 입력받아 각 행동의 가치를 계산하도록 CNN을 사용함.
|
|
- **Experience Replay**: 경험한 데이터를 메모리에 저장해두고 무작위로 추출하여 학습함으로써 데이터 간 상관관계(Correlation)를 끊고 안정성을 확보함.
|
|
- **Target Network**: 가치 예측값과 목표값을 계산하는 네트워크를 분리하여 학습 중 목표값이 요동치는 현상을 방지함.
|
|
- **Legacy**: 아타리(Atari) 게임 정복을 통해 현대 심층 강화학습(Deep RL) 시대를 열었다.
|
|
|
|
---
|
|
|
|
- **추출된 패턴:** 상태([[State|State]])를 입력받아 각 행동(Action)의 가치(Q-value)를 예측하는 함수를 신경망으로 근사하고, 경험 재플레이와 타겟 네트워크를 통해 학습을 안정화하는 패턴.
|
|
- **핵심 기술:**
|
|
- **Experience Replay:** 에이전트의 경험($s, a, r, s'$)을 메모리에 저장하고 무작위로 추출하여 학습함으로써 데이터 간 상관관계를 끊고 학습 효율 증대.
|
|
- **Target Network:** 가치 계산용 네트워크를 별도로 분리하여 학습 중 목표값이 요동치는 현상 방지.
|
|
- **Deep Neural Network as Function Approximator:** 고차원의 입력(예: 게임 화면 픽셀)을 직접 처리 가능하게 함.
|
|
- **의의:** 사람이 규칙을 가르쳐주지 않아도 시각 정보만으로 스스로 전략을 학습할 수 있음을 증명.
|
|
|
|
## ⚖️ Trade-offs & Caveats
|
|
- DQN은 가치 기반(Value-based) 방식이기에 행동 공간이 연속적인(Continuous) 문제에는 적용하기 어렵다. 또한 가치 값을 과대평가(Overestimation)하는 경향이 있어, 이를 보완한 Double DQN, Dueling DQN 등으로 진화하였다.
|
|
|
|
---
|
|
|
|
- **과거 데이터와의 충돌:** 상태가 조금만 복잡해져도 테이블 크기가 폭발하여 불가능했던 강화학습을 현실적인 연산 영역으로 가져옴.
|
|
- **정책 변화:** Skybound 프로젝트의 복잡한 적 AI 행동 패턴 학습 시 DQN 아키텍처를 기본 모델로 사용하며, Double DQN이나 Dueling DQN 등 개선된 기법을 적용함.
|
|
|
|
## 🔗 Knowledge Connections
|
|
- Related: [[Reinforcement Learning (RL)|Reinforcement Learning (RL)]] , [[Bellman-Equation|Bellman-Equation]]
|
|
- Contrast: Policy Gradient Methods
|
|
|
|
---
|
|
|
|
- Q-Learning-Foundations, [[Reinforcement-Learning|Reinforcement-Learning]], Deep-Learning-Foundations, [[Experience-Replay|Experience-Replay]]
|
|
- **Raw Source:** 10_Wiki/Topics/AI/Deep-Q-Networks-DQN.md
|