bluemsi/2nd

Files

T

Antigravity Agent c61f415e2b Chore: Update all Topics metadata to category: Unified

2026-05-02 23:33:34 +09:00

2.2 KiB

Raw Blame History

id: DQN-001 category: Unified confidence_score: 1.0 tags: Reinforcement-Learning, ai, dqn, q-learning, Deep-Learning] last_reinforced: 2026-04-26

Deep Q-Networks (DQN)

📌 한 줄 통찰 (The Karpathy Summary)

"강화학습의 의사결정 테이블을 거대 신경망으로 대체하여 무한한 복잡성에 도전하라" — 고전적 Q-Learning의 테이블 방식 한계를 딥러닝으로 극복하여, 아타리 게임을 인간 수준으로 정복하며 심층 강화학습(Deep RL)의 시대를 연 모델.

📖 구조화된 지식 (Synthesized Content)

추출된 패턴: 상태(State)를 입력받아 각 행동(Action)의 가치(Q-value)를 예측하는 함수를 신경망으로 근사하고, 경험 재플레이와 타겟 네트워크를 통해 학습을 안정화하는 패턴.
핵심 기술:
- Experience Replay: 에이전트의 경험(s, a, r, s')을 메모리에 저장하고 무작위로 추출하여 학습함으로써 데이터 간 상관관계를 끊고 학습 효율 증대.
- Target Network: 가치 계산용 네트워크를 별도로 분리하여 학습 중 목표값이 요동치는 현상 방지.
- Deep Neural Network as Function Approximator: 고차원의 입력(예: 게임 화면 픽셀)을 직접 처리 가능하게 함.
의의: 사람이 규칙을 가르쳐주지 않아도 시각 정보만으로 스스로 전략을 학습할 수 있음을 증명.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 상태가 조금만 복잡해져도 테이블 크기가 폭발하여 불가능했던 강화학습을 현실적인 연산 영역으로 가져옴.
정책 변화: Skybound 프로젝트의 복잡한 적 AI 행동 패턴 학습 시 DQN 아키텍처를 기본 모델로 사용하며, Double DQN이나 Dueling DQN 등 개선된 기법을 적용함.

🔗 지식 연결 (Graph)

Q-Learning-Foundations, Reinforcement-Learning, Deep-Learning-Foundations, Experience-Replay
Raw Source: 10_Wiki/Topics/AI/Deep-Q-Networks-DQN.md