30 lines
2.2 KiB
Markdown
30 lines
2.2 KiB
Markdown
---
|
|
id: RL-ENV-001
|
|
category: "[[10_Wiki/💡 Topics/AI]]"
|
|
confidence_score: 1.0
|
|
tags: [reinforcement-learning, ai, environment-design, mdp, simulation]
|
|
last_reinforced: 2026-04-26
|
|
---
|
|
|
|
# [[Environment Design in RL (강화학습에서의 환경 설계)]]
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "에이전트가 무엇을 배울지는 에이전트가 처한 환경과 보상의 구조가 결정한다" — 강화학습 모델이 목표로 하는 행동을 효과적으로 학습할 수 있도록 상태 공간, 행동 공간, 전이 확률, 그리고 보상 함수(Reward Function)를 수학적/공학적으로 정교하게 모델링하는 과정.
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
- **추출된 패턴:** 복잡한 현실 세계를 마르코프 결정 과정(MDP)으로 추상화하고, 에이전트가 원하는 방향으로 유도되도록 보상의 빈도와 강도를 조절하는 보상 설계(Reward Engineering) 패턴.
|
|
- **핵심 요소:**
|
|
- **State Space (S):** 학습에 필요한 정보만 포함하되 차원의 저주를 피하도록 설계.
|
|
- **Action Space (A):** 연속적 vs 이산적 행동 정의.
|
|
- **Reward Function (R):** Sparse Reward(보상이 드묾) 문제를 해결하기 위한 Reward Shaping 도입.
|
|
- **Simulator Fidelity:** 시뮬레이션 환경의 정밀도와 연산 속도 사이의 균형.
|
|
- **의의:** 알고리즘만큼이나 '어떤 환경에서 학습시키는가'가 모델의 최종 성능과 안전성을 결정함.
|
|
|
|
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
|
- **과거 데이터와의 충돌:** 단순히 최종 목표 달성 시에만 큰 보상을 주던 방식에서, 중간 과정에 대한 힌트(Shaping)를 주어 학습 난이도를 조절하는 방식으로 진화.
|
|
- **정책 변화:** Skybound 프로젝트의 함대 전투 AI 학습 시, 적 처치뿐만 아니라 아군 보호 및 연료 효율성 등 다각도의 환경 변수를 설계하여 균형 잡힌 전략을 유도함.
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- [[Reinforcement-Learning]], [[Markov-Decision-Process-MDP]], [[Reward-Shaping]], [[Simulation-Principles]]
|
|
- **Raw Source:** [[10_Wiki/Topics/AI/Environment-Design-in-RL.md]]
|