bluemsi/2nd

Files

T

bluemsi ae1627c35b feat: achieve 600 files milestone in AI knowledge base

2026-04-20 19:23:51 +09:00

2.2 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

P-REINFORCE-AUTO-DQNN-001

10_Wiki/💡 Topics/AI

0.98

auto-reinforced

dqn

deep-q-network

reinforcement-learning

machine-learning

atari

2026-04-20

DQN

📌 한 줄 통찰 (The Karpathy Summary)

"심층 학습과 강화 학습의 극적인 결합: 단순한 테이블 형태를 넘어 거대한 딥러닝 신경망을 '두뇌'로 사용하여, 아타리 게임 화면 픽셀만 보고도 인간보다 더 높은 점수를 얻어낸 현대 강화학습의 위대한 기점."

📖 구조화된 지식 (Synthesized Content)

Deep Q-Network(DQN)은 Q-Learning 알고리즘에 심층 신경망(Deep Learning)을 결합한 강화학습 알고리즘입니다. (DeepMind 개발)

3대 핵심 혁신:
- Deep Learning Appropriation: 상태 공간이 너무 넓어 테이블로 만들 수 없는 문제를 신경망으로 추사화함.
- Experience Replay: 과거의 경험(s, a, r, s')을 메모리에 저장했다가 무작위로 추출해 학습하여 데이터 간 상관관계를 끊고 효율을 높임.
- Target Network: 정답지에 해당하는 목표 신경망을 일정 주기마다 업데이트하여 학습의 안정성을 확보함.
왜 중요한가?:
- 특정 문제에 특화된 로직 없이 '범용적 인공지능'이 환경과 상호작용하며 스스로 정답을 찾아낼 수 있음을 증명함.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 이전에는 신경망과 강화학습의 결합이 극도로 불안정하여 실패한다는 정책이 우세했으나, DQN의 혁신 정책들(Replay/Target) 덕분에 안정적 학습 정책이 정립됨(RL Update).
정책 변화(RL Update): 기본 DQN 정책을 넘어 Double DQN, Dueling DQN, Prioritized Experience Replay 등을 통합한 'Rainbow DQN 정책'이 고전적 강화학습의 마침표 정책으로 자리 잡음.

🔗 지식 연결 (Graph)

Reinforcement Learning (RL), Credit Assignment Problem, Reward Prediction Error, Optimization, Search-Optimization
Modern Tech/Tools: DeepMind Atari 2600 experiments, Gym (OpenAI), Ray Rllib.