2nd/10_Wiki/Topics_GD/Distributed Reinforcement Learning.md

---
id: [[P-Reinforce|P-Reinforce]]-AI-DIST-RL
category: "10_Wiki/💡 Topics/AI"
confidence_score: 0.98
tags: [Distributed RL, [[Scalability|Scalability]], AI, Apex, Impala]
last_reinforced: 2026-04-20
---

# Distributed-[[Reinforcement-Learning|Reinforcement-Learning]] (분산 강화학습)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "혼자 배우면 1년, 함께 배우면 1시간." 수많은 에이전트를 가상 환경에 풀어 동시에 경험을 쌓게 하고, 이를 하나의 뇌로 집약하는 초고속 학습 기술이다.

## 📖 구조화된 지식 (Synthesized Content)
- **Parallel Data Collection**:
    - 수백~수천 개의 CPU/GPU 환경에서 독립적인 에이전트들이 데이터를 수집하여 중앙 서버로 전송한다.
- **Asynchronous vs Synchronous**:
    - 에이전트들끼리 속도를 맞출지(Sync), 아니면 각자 데이터가 생기는 대로 업데이트할지(Async)에 따른 아키텍처 차이(A3C, IMPALA 등).
- **[[Efficiency|Efficiency]] Boost**:
    - 탐색(Exploration)의 손실을 방지하고, 더 다양한 환경 시나리오를 짧은 시간 안에 학습할 수 있게 한다.

## ⚠️ 모순 및 업데이트 (RL Update)
- 분산 학습은 엄청난 컴퓨팅 자원을 소모한다. 최근에는 자원 효율성을 높이기 위해 '오프 폴리시(Off-policy)' 데이터를 더 효과적으로 재활용하는 `R2D2`나 `MuZero` 같은 알고리즘이 주목받고 있다.

## 🔗 지식 연결 (Graph)
- Related: [[DQN|DQN]] , [[Collective-Intelligence|Collective-Intelligence]]
- Foundation: [[Distributed-Systems-Engineering|Distributed-Systems-Engineering]]