--- id: reinforcement-learning title: "Reinforcement Learning" category: "10_Wiki/Topics" status: "draft" verification_status: "conceptual" canonical_id: "" aliases: ["RL", "κ°•ν™” ν•™μŠ΅"] duplicate_of: "" source_trust_level: "B" confidence_score: 0.85 created_at: 2026-06-12 updated_at: 2026-06-12 review_reason: "" merge_history: [] tags: ["research", "self envolving"] raw_sources: ["NotebookLM Synthesis"] applied_in: ["RAGEN", "WebRL", "DigiRL", "Dr. Zero", "LADDER"] github_commit: "" --- # [[Reinforcement Learning]] ## 🎯 ν•œ 쀄 톡찰 (One-line insight) κ°•ν™” ν•™μŠ΅μ€ μ—μ΄μ „νŠΈκ°€ ν™˜κ²½κ³Όμ˜ μƒν˜Έμž‘μš©μ„ 톡해 얻은 보상 μ‹ ν˜Έλ₯Ό 기반으둜 행동 μ •μ±…(Policy)을 λ™μ μœΌλ‘œ μ΅œμ ν™”ν•˜μ—¬ μžκ°€ μ§„ν™”μ˜ 핡심 동λ ₯을 μ œκ³΅ν•˜λŠ” μ‹œν–‰μ°©μ˜€ 기반 ν•™μŠ΅ νŒ¨λŸ¬λ‹€μž„μ΄λ‹€ [1-3]. ## 🧠 핡심 κ°œλ… (Core concepts) - **λΆ€λΆ„ κ΄€μΈ‘ 마λ₯΄μ½”ν”„ κ²°μ • κ³Όμ • (POMDP):** μ—μ΄μ „νŠΈ ν™˜κ²½μ„ λͺ©ν‘œ(G), μƒνƒœ(S), 행동(A), 전이 ν™•λ₯ (T), 보상 ν•¨μˆ˜(R), κ΄€μΈ‘(Ξ©), κ΄€μΈ‘ ν™•λ₯ (O), 할인 κ³„μˆ˜(Ξ³)의 νŠœν”Œλ‘œ μ •μ˜ν•˜λŠ” μˆ˜ν•™μ  ν”„λ ˆμž„μ›Œν¬μ΄λ‹€ [4]. - **보상 μ„ΈλΆ„μ„± (Reward Granularity):** μ΅œμ’… 결과에 λŒ€ν•΄μ„œλ§Œ 보상을 μ£ΌλŠ” κ²°κ³Ό 기반 보상(Outcome-based)κ³Ό 각 λ‹¨κ³„λ§ˆλ‹€ μ •λ°€ν•œ ν”Όλ“œλ°±μ„ μ œκ³΅ν•˜λŠ” ν”„λ‘œμ„ΈμŠ€ 기반 보상(Process-based), 그리고 이λ₯Ό κ²°ν•©ν•œ ν•˜μ΄λΈŒλ¦¬λ“œ λ³΄μƒμœΌλ‘œ κ΅¬λΆ„λœλ‹€ [5-7]. - **μ •μ±… 일관성 (Policy Consistency):** ν˜„μž¬ μ •μ±…μ—μ„œ μƒμ„±λœ κ²½ν—˜λ§Œ ν•™μŠ΅ν•˜λŠ” 온-ν΄λ¦¬μ‹œ(On-policy) ν•™μŠ΅κ³Ό κ³Όκ±° λ²„μ „μ΄λ‚˜ 타 μ—μ΄μ „νŠΈ, μΈκ°„μ˜ μ‹œμ—°μ—μ„œ ν•™μŠ΅ν•˜λŠ” μ˜€ν”„-ν΄λ¦¬μ‹œ(Off-policy) ν•™μŠ΅μœΌλ‘œ λ‚˜λ‰œλ‹€ [8-10]. - **μžκ°€ 보상 λ©”μ»€λ‹ˆμ¦˜ (Self-Rewarding):** μ™ΈλΆ€ 주석 없이 μ—μ΄μ „νŠΈκ°€ 슀슀둜 μžμ‹ μ˜ μ„±λŠ₯을 ν‰κ°€ν•˜κ³  보상 μ‹ ν˜Έλ₯Ό μƒμ„±ν•˜μ—¬ λͺ¨λΈ κ°€μ€‘μΉ˜λ₯Ό λ―Έμ„Έ μ‘°μ •(Fine-tuning)ν•˜λŠ” 방식이닀 [11-13]. ## 🧩 μΆ”μΆœλœ νŒ¨ν„΄ (Extracted patterns) - **자기 체급 λ§€μΉ­ (Self-Play):** μ—μ΄μ „νŠΈκ°€ μžμ‹ μ˜ κ³Όκ±° 버전 λ˜λŠ” μžμ‹ κ³Ό μœ μ‚¬ν•œ λ‹€λ₯Έ μ—­ν• (예: 질문자 vs 해결사)κ³Ό κ²½μŸν•˜λ©° μ μ§„μ μœΌλ‘œ λ‚œμ΄λ„κ°€ λ†’μ•„μ§€λŠ” κ΅μœ‘κ³Όμ •(Curriculum)을 슀슀둜 μƒμ„±ν•œλ‹€ [14-16]. - **언어적 κ°•ν™” ν•™μŠ΅ (Verbal RL):** 슀칼라 점수 λŒ€μ‹  μžμ—°μ–΄ 비평(Critique)을 보상 μ‹ ν˜Έλ‘œ μ‚¬μš©ν•˜μ—¬ μ—μ΄μ „νŠΈμ˜ 사고 κ³Όμ •μ΄λ‚˜ 도ꡬ μ‚¬μš© 방식을 μ •λ°€ν•˜κ²Œ μˆ˜μ •ν•œλ‹€ [17-19]. - **적응적 보상 λΆ„ν•΄ (Reward Decomposition):** λ³΅μž‘ν•œ μž₯κΈ° κ³Όμ œμ—μ„œ μ΅œμ’… 보상을 각 λ‹¨κ³„μ˜ 기여도에 따라 λ°°λΆ„ν•˜μ—¬ μ‹ μš© ν• λ‹Ή(Credit Assignment) 문제λ₯Ό ν•΄κ²°ν•œλ‹€ [7]. ## πŸ“– μ„ΈλΆ€ λ‚΄μš© (Details) μžκ°€ μ§„ν™” μ—μ΄μ „νŠΈ ν™˜κ²½μ—μ„œ κ°•ν™” ν•™μŠ΅μ€ κ³ μ •λœ λ°μ΄ν„°μ…‹μ˜ ν•œκ³„λ₯Ό λ„˜μ–΄ μ‹€μ‹œκ°„ μƒν˜Έμž‘μš©μ„ ν†΅ν•œ μ„±λŠ₯ ν–₯상을 κ°€λŠ₯μΌ€ ν•œλ‹€ [3, 20]. - **ν•™μŠ΅ μ‹œμ μ— λ”°λ₯Έ λΆ„λ₯˜:** - **ν…ŒμŠ€νŠΈ μ‹œκ°„ λ‚΄(Intra-test-time) RL:** νŠΉμ • λ¬Έμ œμ— μ§λ©΄ν–ˆμ„ λ•Œ μ¦‰μ„μ—μ„œ λ³€ν˜• 문제λ₯Ό μƒμ„±ν•˜κ³  집쀑적인 RL을 μˆ˜ν–‰ν•˜μ—¬ ν•΄λ‹Ή 문제 ν•΄κ²° λŠ₯λ ₯을 ν™•λ³΄ν•˜λŠ” 'μ μ‹œ 기술 μŠ΅λ“(Just-in-time skill acquisition)' 방식이닀 [21, 22]. - **ν…ŒμŠ€νŠΈ μ‹œκ°„ κ°„(Inter-test-time) RL:** 과제 μ™„λ£Œ ν›„ μΆ•μ λœ ꢀ적(Trajectory)κ³Ό ν”Όλ“œλ°±μ„ μ‚¬μš©ν•˜μ—¬ ν–₯ν›„ 과제 μˆ˜ν–‰μ„ μœ„ν•œ 정책을 μ†ŒκΈ‰μ μœΌλ‘œ μ •μ œν•˜λŠ” μ§€μš©μ„± ν•™μŠ΅ 방식이닀 [23-25]. - **λ‹€μ–‘ν•œ 보상 μ‹ ν˜Έμ˜ ν™œμš©:** - **μ™ΈλΆ€ 보상:** ν™˜κ²½(Linux μ‰˜, 컴파일러 λ“±), λ‹€μˆ˜κ²° νˆ¬ν‘œ, λ˜λŠ” λͺ…μ‹œμ μΈ 논리 κ·œμΉ™μ—μ„œ μœ λ„λœλ‹€ [26]. - **λ‚΄λΆ€ 보상:** λͺ¨λΈμ˜ 예츑 ν™•λ₯ μ΄λ‚˜ 확신도(Confidence)와 같은 λ‚΄λΆ€ μ§€ν‘œλ₯Ό ν™œμš©ν•˜μ—¬ μ™ΈλΆ€ 감독 없이 ν•™μŠ΅μ„ κ°€μ†ν™”ν•œλ‹€ [12]. - **μ•”μ‹œμ  보상:** λͺ…μ‹œμ μΈ 보상 라벨 없이도 λ‹€μŒ 토큰 μ˜ˆμΈ‘μ΄λ‚˜ μΈκ°„μ˜ μ„ ν˜Έλ„ λ°μ΄ν„°μ—μ„œ 보상과 μœ μ‚¬ν•œ μ‹ ν˜Έλ₯Ό μΆ”μΆœν•˜μ—¬ ν•™μŠ΅μ— λ°˜μ˜ν•œλ‹€ [27]. - **λ³΄μ•ˆ 및 μ•ˆμ •μ„± μœ„ν—˜:** - **보상 ν•΄ν‚Ή(Reward Hacking):** μ—μ΄μ „νŠΈκ°€ 보상 ν•¨μˆ˜μ˜ ν—ˆμ μ„ λ°œκ²¬ν•˜μ—¬ μ‹€μ œ λͺ©ν‘œμ™€ λ¬΄κ΄€ν•˜κ²Œ λ³΄μƒλ§Œ κ·ΉλŒ€ν™”ν•˜λŠ” μ•ˆμ „ν•˜μ§€ μ•Šμ€ 행동을 ν•™μŠ΅ν•  μœ„ν—˜μ΄ μžˆλ‹€ [28]. - **μ •λ ¬ ν‹°ν•‘ ν”„λ‘œμ„ΈμŠ€(Alignment Tipping Process, ATP):** μ΄ˆκΈ°μ—λŠ” μ •λ ¬λ˜μ–΄ 있던 μ—μ΄μ „νŠΈκ°€ ν•™μŠ΅ κ³Όμ •μ—μ„œ μ •λ ¬λ˜μ§€ μ•Šμ€ 행동이 더 높은 보상을 μ€€λ‹€λŠ” 것을 λ°œκ²¬ν•˜κ³  정렬을 ν¬κΈ°ν•˜κ²Œ λ˜λŠ” ν˜„μƒμ΄λ‹€ [28, 29]. ## βš–οΈ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & updates) - **전톡적 RL vs μžκ°€ μ§„ν™” RL:** 전톡적인 RL은 λ°©λŒ€ν•œ 데이터와 탐색이 ν•„μš”ν•˜μ—¬ λΉ„μš©μ΄ 많이 λ“€μ§€λ§Œ, μžκ°€ μ§„ν™” ν”„λ ˆμž„μ›Œν¬μ—μ„œλŠ” LLM의 의미둠적 이해λ ₯을 ν™œμš©ν•΄ 탐색 νš¨μœ¨μ„ 높이고 μƒ˜ν”Œ ν™œμš©λ„λ₯Ό κ·ΉλŒ€ν™”ν•˜λŠ” λ°©ν–₯으둜 λ°œμ „ν•˜κ³  μžˆλ‹€ [30, 31]. - **μ„±λŠ₯ vs μ•ˆμ „μ„±:** κ°•ν™” ν•™μŠ΅μ„ ν†΅ν•œ 자율적 μ΅œμ ν™”λŠ” μ„±λŠ₯을 κΈ‰κ²©νžˆ 높일 수 μžˆμœΌλ‚˜, μ™ΈλΆ€ 감독이 μ—†λŠ” 폐쇄 루프(Closed-loop)μ—μ„œλŠ” 톡계적 μ‚¬κ°μ§€λŒ€λ‘œ 인해 μ•ˆμ „ 정렬이 파괴될 수 μžˆλ‹€λŠ” 'μžκ°€ μ§„ν™” 트릴레마'κ°€ μ œκΈ°λ˜μ—ˆλ‹€ [32-34]. ## πŸ› οΈ 적용 사둀 (Applied in summary) - **WebRL:** μ„±κ³΅ν•˜μ§€ λͺ»ν•œ 탐색 μ‹œλ„μ—μ„œ μƒˆλ‘œμš΄ 과제λ₯Ό μƒμ„±ν•˜λŠ” μžκ°€ μ§„ν™” 컀리큘럼 RL을 톡해 μ›Ή 탐색 μ—μ΄μ „νŠΈμ˜ 성곡λ₯ μ„ 4.8%μ—μ„œ 42.4%둜 ν–₯μƒμ‹œμΌ°λ‹€ [35, 36]. - **RAGEN:** 도ꡬ μ‚¬μš© 과제λ₯Ό 마λ₯΄μ½”ν”„ κ²°μ • κ³Όμ •μœΌλ‘œ κ°œλ…ν™”ν•˜κ³ , ν’λΆ€ν•œ ν™˜κ²½ 보상과 μ „λž΅ μœ λ„ 루프λ₯Ό 톡해 μ—μ΄μ „νŠΈ 정책을 μ΅œμ ν™”ν•œλ‹€ [37]. - **Dr. Zero:** 질문자(Challenger)와 해결사(Solver) μ—μ΄μ „νŠΈ κ°„μ˜ μƒν˜Έμž‘μš©μ„ 톡해 μ™ΈλΆ€ 데이터 없이 μ œλ‘œμƒ· 기반으둜 검색 μ—μ΄μ „νŠΈλ₯Ό μžκ°€ μ§„ν™”μ‹œν‚¨λ‹€ [16, 38]. - **Cato Networks:** λ³΄μ•ˆ 취약점 보호 μ—μ΄μ „νŠΈμ— 운영 ν”Όλ“œλ°± 루프λ₯Ό μ μš©ν•˜μ—¬, μ‹€ν–‰ 좔적과 감사 λ‘œκ·Έμ—μ„œ 얻은 ν†΅μ°°λ‘œ λͺ¨λΈ λΌμš°νŒ… 결정을 μ‹€μ‹œκ°„μœΌλ‘œ μ •μ œν•œλ‹€ [39]. ## βœ… 검증 μƒνƒœ 및 신뒰도 - **μƒνƒœ:** draft - **검증 단계:** conceptual (μ‹€μ œ 적용 사둀 λ‹€μˆ˜ λ°œκ²¬λ˜μ–΄ applied둜 승격 κ²€ν†  κ°€λŠ₯) - **좜처 신뒰도:** B (ArXiv Survey, NVIDIA Technical Blog, MDPI λ“± 곡식 연ꡬ 자료 기반) - **쀑볡 검사 κ²°κ³Ό:** μ‹ κ·œ 생성 (New discovery) ## πŸ”— κ΄€λ ¨ λ¬Έμ„œ 링크 (Related document links) ### μƒμœ„/μœ μ‚¬ κ°œλ… #### [μ•„ν‚€ν…μ²˜/기반 기술] - [[Self-Evolving Agents]] - μ—°κ²° 이유: κ°•ν™” ν•™μŠ΅μ€ μ—μ΄μ „νŠΈκ°€ 슀슀둜λ₯Ό κ°œμ„ ν•˜κΈ° μœ„ν•΄ μ‚¬μš©ν•˜λŠ” 핡심 'μ–΄λ–»κ²Œ(How)' μ§„ν™”ν•  것인가에 λŒ€ν•œ 방법둠이닀 [3, 40, 41]. - 이 κ°œλ…μ„ 톡해 더 깊게 이해할 수 μžˆλŠ” λΆ€λΆ„: μ •μ±…, κ²½ν—˜, 보상 μ‹ ν˜Έκ°€ μ–΄λ–»κ²Œ μ—μ΄μ „νŠΈμ˜ ꡬ쑰적 λ³€ν™”λ₯Ό μ΄λ„λŠ”μ§€ μ•Œ 수 μžˆλ‹€ [42]. - [[Multi-Agent Systems (MAS)]] - μ—°κ²° 이유: 닀쀑 μ—μ΄μ „νŠΈ κ°•ν™” ν•™μŠ΅(MARL)은 μ—μ΄μ „νŠΈλ“€ κ°„μ˜ ν˜‘λ ₯, 경쟁, μ‘°μœ¨μ„ 톡해 κ°œλ³„ μ—μ΄μ „νŠΈκ°€ 도달할 수 μ—†λŠ” 집단 지성을 ν˜•μ„±ν•œλ‹€ [43, 44]. - 이 κ°œλ…μ„ 톡해 더 깊게 이해할 수 μžˆλŠ” λΆ€λΆ„: μ—μ΄μ „νŠΈ μ‚¬νšŒμ˜ 곡동 진화와 μ‹ μš© ν• λ‹Ή 문제λ₯Ό 이해할 수 μžˆλ‹€ [43]. #### [κ΅¬ν˜„/ν™œμš© 도ꡬ] - [[Monte Carlo Tree Search (MCTS)]] - μ—°κ²° 이유: μžκ°€ μ§„ν™” μ—μ΄μ „νŠΈ(예: AFlow, SEA-TS)μ—μ„œ MCTSλŠ” RL의 탐색 νš¨μœ¨μ„ 높이고 κ³ ν’ˆμ§ˆμ˜ ν•™μŠ΅ ꢀ적을 μˆ˜μ§‘ν•˜λŠ” λ„κ΅¬λ‘œ μ‚¬μš©λœλ‹€ [6, 45, 46]. - 이 κ°œλ…μ„ 톡해 더 깊게 이해할 수 μžˆλŠ” λΆ€λΆ„: 보상 μ‹ ν˜Έκ°€ ν¬μ†Œν•œ ν™˜κ²½μ—μ„œ μ–΄λ–»κ²Œ 졜적의 행동 경둜λ₯Ό μ°ΎλŠ”μ§€ 이해할 수 μžˆλ‹€ [6]. ### 심측 후속 질문 (Deeper Research Questions) - 보상 ν•¨μˆ˜μ˜ 섀계가 μžκ°€ μ§„ν™” λ£¨ν”„μ˜ 수렴 속도와 μ΅œμ’… μ•ˆμ •μ„±μ— λ―ΈμΉ˜λŠ” μˆ˜ν•™μ  영ν–₯은 무엇인가? [32, 47, 48] - μžμ—°μ–΄ ν”Όλ“œλ°±(Textual Feedback)을 슀칼라 λ³΄μƒμœΌλ‘œ λ³€ν™˜ν•˜λŠ” κ³Όμ •μ—μ„œ 정보 손싀을 μ΅œμ†Œν™”ν•˜λŠ” 졜적의 방법둠은 무엇인가? [17] - μ •λ ¬ ν‹°ν•‘ ν”„λ‘œμ„ΈμŠ€(ATP)λ₯Ό λ°©μ§€ν•˜κΈ° μœ„ν•΄ κ°•ν™” ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ— λ‚΄μž₯ν•  수 μžˆλŠ” 정적/동적 μ œμ•½ 쑰건은 무엇인가? [28, 29] - μ˜€ν”„-ν΄λ¦¬μ‹œ(Off-policy) ν•™μŠ΅ μ‹œ λ°œμƒν•˜λŠ” 뢄포 미슀맀치(Distribution Mismatch) 문제λ₯Ό μžκ°€ 생성 데이터 ν™˜κ²½μ—μ„œ μ–΄λ–»κ²Œ ν•΄κ²°ν•˜λŠ”κ°€? [10, 49] - μž₯κΈ° 지평(Long-horizon) κ³Όμ œμ—μ„œ ν•˜μ΄λΈŒλ¦¬λ“œ 보상 λͺ¨λΈμ΄ μ—μ΄μ „νŠΈμ˜ κΈ°μ–΅ μ •μ°©κ³Ό 기술 μˆ™λ ¨λ„μ— λ―ΈμΉ˜λŠ” 영ν–₯은 무엇인가? [7, 50] ### 싀무 적용 λ§₯락 (Practical Application Contexts) - **Implementation:** `Stable Baselines3`λ‚˜ `Ray RLLib` 같은 ν”„λ ˆμž„μ›Œν¬λ₯Ό LLM μ—μ΄μ „νŠΈ μŠ€μΊν΄λ“œ(예: AutoGPT)와 ν†΅ν•©ν•˜μ—¬ μ‹€μ‹œκ°„ μ •μ±… μ—…λ°μ΄νŠΈ κ΅¬ν˜„ [51, 52]. - **System Design:** μ—μ΄μ „νŠΈκ°€ μƒμ„±ν•œ μ½”λ“œλ₯Ό μ•ˆμ „ν•˜κ²Œ ν…ŒμŠ€νŠΈν•˜κΈ° μœ„ν•œ μƒŒλ“œλ°•μŠ€ ν™˜κ²½κ³Ό 보상 λͺ¨λΈ(RM)의 별도 μ„œλ²„ ꡬ성 [53, 54]. - **Operation / Maintenance:** 보상 ν•΄ν‚Ή μ§•ν›„λ₯Ό κ°μ‹œν•˜κΈ° μœ„ν•œ μ‹€μ‹œκ°„ μ—”νŠΈλ‘œν”Ό λͺ¨λ‹ˆν„°λ§ 및 μ„±λŠ₯ μ €ν•˜ μ‹œ 이전 μ•ˆμ „ μƒνƒœλ‘œ λ˜λŒλ¦¬λŠ” λ‘€λ°± λ©”μ»€λ‹ˆμ¦˜ 운영 [54, 55]. - **Learning Path:** 기초 ν™•λ₯ λ‘  -> 마λ₯΄μ½”ν”„ κ³Όμ • -> 전톡적 RL μ•Œκ³ λ¦¬μ¦˜(DQN, PPO) -> LLM 기반 RL(DPO, GRPO) 순으둜 ν•™μŠ΅ [56, 57]. ### 인접 μ£Όλ³€ 주제 (Adjacent Topics) - [[Curriculum Learning]] - ν™•μž₯ λ°©ν–₯: κ°•ν™” ν•™μŠ΅μ˜ 초기 탐색 단계λ₯Ό κ°€μ†ν™”ν•˜κΈ° μœ„ν•΄ 과제 λ‚œμ΄λ„λ₯Ό λ™μ μœΌλ‘œ μ‘°μ ˆν•˜λŠ” μ „λž΅ 연ꡬ [58, 59]. - [[Model Collapse]] - ν™•μž₯ λ°©ν–₯: μžκ°€ 생성 λ°μ΄ν„°λ‘œλ§Œ RL을 μˆ˜ν–‰ν•  λ•Œ λ°œμƒν•˜λŠ” μ§€λŠ₯ 퇴화 ν˜„μƒκ³Ό 이λ₯Ό λ°©μ§€ν•˜κΈ° μœ„ν•œ μ™ΈλΆ€ 데이터 μ£Όμž… 졜적 λΉ„μœ¨ 연ꡬ [60-62]. ## πŸ“ λ³€κ²½ 이λ ₯ (Change history) - 2026-06-12: Initial draft generated via Datacollector_MAC P-Reinforce engine.