[G1-Sync] Manual knowledge update
This commit is contained in:
@@ -1,12 +1,12 @@
|
||||
---
|
||||
id: P-REINFORCE-AI-DIST-RL
|
||||
id: [[P-Reinforce]]-AI-DIST-RL
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 0.98
|
||||
tags: [Distributed RL, Scalability, AI, Apex, Impala]
|
||||
tags: [Distributed RL, [[Scalability]], AI, Apex, Impala]
|
||||
last_reinforced: 2026-04-20
|
||||
---
|
||||
|
||||
# Distributed-Reinforcement-Learning (분산 강화학습)
|
||||
# Distributed-[[Reinforcement-Learning]] (분산 강화학습)
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "혼자 배우면 1년, 함께 배우면 1시간." 수많은 에이전트를 가상 환경에 풀어 동시에 경험을 쌓게 하고, 이를 하나의 뇌로 집약하는 초고속 학습 기술이다.
|
||||
@@ -16,7 +16,7 @@ last_reinforced: 2026-04-20
|
||||
- 수백~수천 개의 CPU/GPU 환경에서 독립적인 에이전트들이 데이터를 수집하여 중앙 서버로 전송한다.
|
||||
- **Asynchronous vs Synchronous**:
|
||||
- 에이전트들끼리 속도를 맞출지(Sync), 아니면 각자 데이터가 생기는 대로 업데이트할지(Async)에 따른 아키텍처 차이(A3C, IMPALA 등).
|
||||
- **Efficiency Boost**:
|
||||
- **[[Efficiency]] Boost**:
|
||||
- 탐색(Exploration)의 손실을 방지하고, 더 다양한 환경 시나리오를 짧은 시간 안에 학습할 수 있게 한다.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (RL Update)
|
||||
|
||||
Reference in New Issue
Block a user