bluemsi/2nd

Files

T

bluemsi 2afcd3b2a6 [P-Reinforce] Substantial content added to DQN/Dijkstra/Differentiable/Dense (Batch 05)

2026-04-20 17:05:12 +09:00

1.4 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

P-REINFORCE-AI-DQN

10_Wiki/💡 Topics/AI

0.99

DQN

Deep Q-Networks

Reinforcement Learning

AI

2026-04-20

DQN (심층 Q-네트워크)

📌 한 줄 통찰 (The Karpathy Summary)

"딥러닝이 강화학습의 눈이 되었다." 테이블 방식의 한계를 넘어, 복잡한 화면 이미지(픽셀)를 직접 보고 최적의 행동을 결정하게 만든 AI 역사의 한 획이다.

📖 구조화된 지식 (Synthesized Content)

Experience Replay:
- 과거의 경험을 메모리 버퍼에 저장했다가 무작위로 꺼내 학습함으로써, 데이터 간의 상관관계를 끊고 학습 안전성을 높인다.
Fixed Q-Targets:
- 학습 대상(Target)이 계속 변해서 생기는 불안정성을 막기 위해, 별도의 타겟 네트워크를 두고 일정한 주기마다 업데이트한다.
Application:
- 아타리(Atari) 게임 정복부터 로봇 제어, 주식 트레이딩 등 불확실한 환경의 의사결정에 널리 쓰인다.

⚠️ 모순 및 업데이트 (RL Update)

DQN은 행동 공간(Action Space)이 이산적(Discrete)일 때만 유리하다. 연속적인 움직임이 필요한 자율주행이나 로봇 팔 제어에는 DDPG나 PPO 같은 후속 알고리즘이 더 많이 사용된다.

🔗 지식 연결 (Graph)

Related: Reinforcement Learning , Bellman-Equation
Foundation: Information Theory