Files
2nd/10_Wiki/Topics/AI/Environment-Design-in-RL.md
T

2.2 KiB

id, category, confidence_score, tags, last_reinforced
id category confidence_score tags last_reinforced
RL-ENV-001 10_Wiki/💡 Topics/AI 1.0
reinforcement-learning
ai
environment-design
mdp
simulation
2026-04-26

Environment Design in RL (강화학습에서의 환경 설계)

📌 한 줄 통찰 (The Karpathy Summary)

"에이전트가 무엇을 배울지는 에이전트가 처한 환경과 보상의 구조가 결정한다" — 강화학습 모델이 목표로 하는 행동을 효과적으로 학습할 수 있도록 상태 공간, 행동 공간, 전이 확률, 그리고 보상 함수(Reward Function)를 수학적/공학적으로 정교하게 모델링하는 과정.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: 복잡한 현실 세계를 마르코프 결정 과정(MDP)으로 추상화하고, 에이전트가 원하는 방향으로 유도되도록 보상의 빈도와 강도를 조절하는 보상 설계(Reward Engineering) 패턴.
  • 핵심 요소:
    • State Space (S): 학습에 필요한 정보만 포함하되 차원의 저주를 피하도록 설계.
    • Action Space (A): 연속적 vs 이산적 행동 정의.
    • Reward Function (R): Sparse Reward(보상이 드묾) 문제를 해결하기 위한 Reward Shaping 도입.
    • Simulator Fidelity: 시뮬레이션 환경의 정밀도와 연산 속도 사이의 균형.
  • 의의: 알고리즘만큼이나 '어떤 환경에서 학습시키는가'가 모델의 최종 성능과 안전성을 결정함.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

  • 과거 데이터와의 충돌: 단순히 최종 목표 달성 시에만 큰 보상을 주던 방식에서, 중간 과정에 대한 힌트(Shaping)를 주어 학습 난이도를 조절하는 방식으로 진화.
  • 정책 변화: Skybound 프로젝트의 함대 전투 AI 학습 시, 적 처치뿐만 아니라 아군 보호 및 연료 효율성 등 다각도의 환경 변수를 설계하여 균형 잡힌 전략을 유도함.

🔗 지식 연결 (Graph)