2.2 KiB
2.2 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | |||||
|---|---|---|---|---|---|---|---|---|---|
| RL-ENV-001 | 10_Wiki/💡 Topics/AI | 1.0 |
|
2026-04-26 |
Environment Design in RL (강화학습에서의 환경 설계)
📌 한 줄 통찰 (The Karpathy Summary)
"에이전트가 무엇을 배울지는 에이전트가 처한 환경과 보상의 구조가 결정한다" — 강화학습 모델이 목표로 하는 행동을 효과적으로 학습할 수 있도록 상태 공간, 행동 공간, 전이 확률, 그리고 보상 함수(Reward Function)를 수학적/공학적으로 정교하게 모델링하는 과정.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: 복잡한 현실 세계를 마르코프 결정 과정(MDP)으로 추상화하고, 에이전트가 원하는 방향으로 유도되도록 보상의 빈도와 강도를 조절하는 보상 설계(Reward Engineering) 패턴.
- 핵심 요소:
- State Space (S): 학습에 필요한 정보만 포함하되 차원의 저주를 피하도록 설계.
- Action Space (A): 연속적 vs 이산적 행동 정의.
- Reward Function (R): Sparse Reward(보상이 드묾) 문제를 해결하기 위한 Reward Shaping 도입.
- Simulator Fidelity: 시뮬레이션 환경의 정밀도와 연산 속도 사이의 균형.
- 의의: 알고리즘만큼이나 '어떤 환경에서 학습시키는가'가 모델의 최종 성능과 안전성을 결정함.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 단순히 최종 목표 달성 시에만 큰 보상을 주던 방식에서, 중간 과정에 대한 힌트(Shaping)를 주어 학습 난이도를 조절하는 방식으로 진화.
- 정책 변화: Skybound 프로젝트의 함대 전투 AI 학습 시, 적 처치뿐만 아니라 아군 보호 및 연료 효율성 등 다각도의 환경 변수를 설계하여 균형 잡힌 전략을 유도함.