--- id: RL-ELIG-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [reinforcement-learning, ai, eligibility-traces, credit-assignment, temporal-difference] last_reinforced: 2026-04-26 --- # Eligibility Traces (적격성 흔적) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "ν˜„μž¬μ˜ 보상을 과거의 μ–΄λ–€ 행동에 λ‚˜λˆ„μ–΄μ€„μ§€ κ²°μ •ν•˜λŠ” μ§€λŠ₯적 κΈ°μ–΅μ˜ 자ꡭ" β€” κ°•ν™”ν•™μŠ΅μ—μ„œ λ°œμƒν•œ 보상을 과거에 λ°©λ¬Έν–ˆλ˜ μƒνƒœλ“€κ³Ό μ—°κ²°ν•˜μ—¬ μ—…λ°μ΄νŠΈ νš¨μœ¨μ„ λ†’μ΄λŠ” 기술둜, TD($\lambda$) μ•Œκ³ λ¦¬μ¦˜μ˜ 핡심. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** 사건이 λ°œμƒν•œ μ‹œμ μœΌλ‘œλΆ€ν„° μ‹œκ°„μ΄ μ§€λ‚ μˆ˜λ‘ κ·Έ 영ν–₯λ ₯을 μ„œμ„œνžˆ κ°μ†Œμ‹œν‚€λ˜(Decay), μ΅œκ·Όμ— 자주 λ°©λ¬Έν•œ μƒνƒœμ—λŠ” 더 높은 기여도λ₯Ό λΆ€μ—¬ν•˜λŠ” μ‹œκ°„μ  μ‹ μš© ν• λ‹Ή νŒ¨ν„΄. - **핡심 μš”μ†Œ:** - **Trace Decay ($\lambda$):** 0κ³Ό 1 μ‚¬μ΄μ˜ κ°’μœΌλ‘œ, κ³Όκ±° μƒνƒœμ˜ 흔적을 μ–Όλ§ˆλ‚˜ 빨리 μ§€μšΈμ§€ κ²°μ •. - **Frequency Heuristic:** 자주 λ°©λ¬Έν•œ μƒνƒœμΌμˆ˜λ‘ 더 λ§Žμ€ 보상을 받을 자격이 있음. - **Recency Heuristic:** μ΅œκ·Όμ— λ°©λ¬Έν•œ μƒνƒœμΌμˆ˜λ‘ ν˜„μž¬ 보상에 λŒ€ν•œ 기여도가 λ†’μŒ. - **TD($\lambda$):** ν•œ 번의 μ—…λ°μ΄νŠΈλ‘œ μ—¬λŸ¬ 단계 μ΄μ „μ˜ μƒνƒœ κ°€μΉ˜λ₯Ό λ™μ‹œμ— κ°±μ‹ ν•˜μ—¬ ν•™μŠ΅ 속도 ν–₯상. - **의의:** μ—ν”Όμ†Œλ“œκ°€ 끝날 λ•ŒκΉŒμ§€ κΈ°λ‹€λ¦¬λŠ” λͺ¬ν…ŒμΉ΄λ₯Όλ‘œ 방식과 λ°”λ‘œ λ‹€μŒ λ‹¨κ³„λ§Œ λ³΄λŠ” TD(0) 방식 μ‚¬μ΄μ˜ μœ μ—°ν•œ 쑰절 μž₯치 제곡. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** ν•œ λ²ˆμ— ν•˜λ‚˜μ˜ μƒνƒœλ§Œ μ—…λ°μ΄νŠΈν•˜λ˜ λΉ„νš¨μœ¨μ μΈ λ°©μ‹μ—μ„œ, 흔적을 남겨 μ‹œν€€μŠ€ 전체λ₯Ό 효율적으둜 ν•™μŠ΅ν•˜λŠ” ꡬ쑰둜 μ§„ν™”. - **μ •μ±… λ³€ν™”:** Antigravity μ—μ΄μ „νŠΈμ˜ 닀단계 μ˜μ‚¬κ²°μ • λͺ¨λΈμ€ 적격성 흔적 원리λ₯Ό ν™œμš©ν•˜μ—¬, μ΅œμ’… νƒœμŠ€ν¬ 성곡 μ‹œ κ·Έ κ³Όμ •μ—μ„œ 거쳐온 쀑간 지식 검색 λ‹¨κ³„λ“€μ˜ μœ μš©μ„±μ„ μ†ŒκΈ‰ 평가함. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Temporal-Difference-Learning|Temporal-Difference-Learning]], [[Reinforcement-Learning|Reinforcement-Learning]], Q-Learning-Foundations, [[Monte-Carlo-Methods|Monte-Carlo-Methods]] - **Raw Source:** 10_Wiki/Topics/AI/Eligibility-Traces.md