--- id: P-REINFORCE-AI-DQN category: "[[10_Wiki/πŸ’‘ Topics/AI]]" confidence_score: 0.99 tags: [DQN, Deep Q-Networks, Reinforcement Learning, AI] last_reinforced: 2026-04-20 --- # [[DQN]] (심측 Q-λ„€νŠΈμ›Œν¬) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "λ”₯λŸ¬λ‹μ΄ κ°•ν™”ν•™μŠ΅μ˜ 눈이 λ˜μ—ˆλ‹€." ν…Œμ΄λΈ” λ°©μ‹μ˜ ν•œκ³„λ₯Ό λ„˜μ–΄, λ³΅μž‘ν•œ ν™”λ©΄ 이미지(ν”½μ…€)λ₯Ό 직접 보고 졜적의 행동을 κ²°μ •ν•˜κ²Œ λ§Œλ“  AI μ—­μ‚¬μ˜ ν•œ νšμ΄λ‹€. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **Experience Replay**: - 과거의 κ²½ν—˜μ„ λ©”λͺ¨λ¦¬ 버퍼에 μ €μž₯ν–ˆλ‹€κ°€ λ¬΄μž‘μœ„λ‘œ κΊΌλ‚΄ ν•™μŠ΅ν•¨μœΌλ‘œμ¨, 데이터 κ°„μ˜ 상관관계λ₯Ό 끊고 ν•™μŠ΅ μ•ˆμ „μ„±μ„ 높인닀. - **Fixed Q-Targets**: - ν•™μŠ΅ λŒ€μƒ(Target)이 계속 λ³€ν•΄μ„œ μƒκΈ°λŠ” λΆˆμ•ˆμ •μ„±μ„ 막기 μœ„ν•΄, λ³„λ„μ˜ νƒ€κ²Ÿ λ„€νŠΈμ›Œν¬λ₯Ό 두고 μΌμ •ν•œ μ£ΌκΈ°λ§ˆλ‹€ μ—…λ°μ΄νŠΈν•œλ‹€. - **Application**: - 아타리(Atari) κ²Œμž„ 정볡뢀터 λ‘œλ΄‡ μ œμ–΄, 주식 νŠΈλ ˆμ΄λ”© λ“± λΆˆν™•μ‹€ν•œ ν™˜κ²½μ˜ μ˜μ‚¬κ²°μ •μ— 널리 쓰인닀. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (RL Update) - DQN은 행동 곡간(Action Space)이 이산적(Discrete)일 λ•Œλ§Œ μœ λ¦¬ν•˜λ‹€. 연속적인 μ›€μ§μž„μ΄ ν•„μš”ν•œ μžμœ¨μ£Όν–‰μ΄λ‚˜ λ‘œλ΄‡ νŒ” μ œμ–΄μ—λŠ” `DDPG`λ‚˜ `PPO` 같은 후속 μ•Œκ³ λ¦¬μ¦˜μ΄ 더 많이 μ‚¬μš©λœλ‹€. ## πŸ”— 지식 μ—°κ²° (Graph) - Related: [[Reinforcement Learning]] , [[Bellman-Equation]] - Foundation: [[Information Theory]]