bluemsi/2nd

Files

T

koriweb 3d9d0077cc feat: organize and categorize 1535 knowledge assets into wiki topics (2026-04-29)

2026-04-29 18:14:09 +09:00

1.7 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

P-REINFORCE-AI-DQN

10_Wiki/💡 Topics/AI

0.97

ReinforcementLearning

DQN

DeepMind

QLearning

2026-04-20

Deep Q-Networks (DQN)

📌 한 줄 통찰 (The Karpathy Summary)

"고전 게임기를 정복한 딥러닝과 강화학습의 사상 첫 번째 결합." 상태 가치를 예측하는 고전적인 Q-Learning에 심층 신경망을 도입하여 픽셀 정보만으로 인간 이상의 게임 실력을 달성한 기념비적 논문이다.

📖 구조화된 지식 (Synthesized Content)

Key Innovations:
- Deep Neural Network as Q-Function: 복잡하고 고차원적인 상태(예: 화면 픽셀)를 입력받아 각 행동의 가치를 계산하도록 CNN을 사용함.
- Experience Replay: 경험한 데이터를 메모리에 저장해두고 무작위로 추출하여 학습함으로써 데이터 간 상관관계(Correlation)를 끊고 안정성을 확보함.
- Target Network: 가치 예측값과 목표값을 계산하는 네트워크를 분리하여 학습 중 목표값이 요동치는 현상을 방지함.
Legacy: 아타리(Atari) 게임 정복을 통해 현대 심층 강화학습(Deep RL) 시대를 열었다.

⚠️ 모순 및 업데이트 (RL Update)

DQN은 가치 기반(Value-based) 방식이기에 행동 공간이 연속적인(Continuous) 문제에는 적용하기 어렵다. 또한 가치 값을 과대평가(Overestimation)하는 경향이 있어, 이를 보완한 Double DQN, Dueling DQN 등으로 진화하였다.

🔗 지식 연결 (Graph)

Related: Reinforcement Learning (RL) , Bellman-Equation
Contrast: Policy Gradient Methods