bluemsi/2nd

Files

T

Antigravity Agent c612160a13 chore(wiki): reinforce knowledge batch #6-#10 (200 docs milestone)

2026-04-26 15:07:47 +09:00

2.2 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

RL-ENV-001

10_Wiki/💡 Topics/AI

1.0

reinforcement-learning

ai

environment-design

mdp

simulation

2026-04-26

Environment Design in RL (강화학습에서의 환경 설계)

📌 한 줄 통찰 (The Karpathy Summary)

"에이전트가 무엇을 배울지는 에이전트가 처한 환경과 보상의 구조가 결정한다" — 강화학습 모델이 목표로 하는 행동을 효과적으로 학습할 수 있도록 상태 공간, 행동 공간, 전이 확률, 그리고 보상 함수(Reward Function)를 수학적/공학적으로 정교하게 모델링하는 과정.

📖 구조화된 지식 (Synthesized Content)

추출된 패턴: 복잡한 현실 세계를 마르코프 결정 과정(MDP)으로 추상화하고, 에이전트가 원하는 방향으로 유도되도록 보상의 빈도와 강도를 조절하는 보상 설계(Reward Engineering) 패턴.
핵심 요소:
- State Space (S): 학습에 필요한 정보만 포함하되 차원의 저주를 피하도록 설계.
- Action Space (A): 연속적 vs 이산적 행동 정의.
- Reward Function (R): Sparse Reward(보상이 드묾) 문제를 해결하기 위한 Reward Shaping 도입.
- Simulator Fidelity: 시뮬레이션 환경의 정밀도와 연산 속도 사이의 균형.
의의: 알고리즘만큼이나 '어떤 환경에서 학습시키는가'가 모델의 최종 성능과 안전성을 결정함.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 단순히 최종 목표 달성 시에만 큰 보상을 주던 방식에서, 중간 과정에 대한 힌트(Shaping)를 주어 학습 난이도를 조절하는 방식으로 진화.
정책 변화: Skybound 프로젝트의 함대 전투 AI 학습 시, 적 처치뿐만 아니라 아군 보호 및 연료 효율성 등 다각도의 환경 변수를 설계하여 균형 잡힌 전략을 유도함.

🔗 지식 연결 (Graph)

Reinforcement-Learning, Markov-Decision-Process-MDP, Reward-Shaping, Simulation-Principles
Raw Source: 10_Wiki/Topics/AI/Environment-Design-in-RL.md