bluemsi/2nd

Files

T

Antigravity Agent b71a0b82d3 Refactor: Consolidate directory structure into 5 main categories and update metadata

2026-05-02 23:17:19 +09:00

2.5 KiB

Raw Blame History

id: P-Reinforce-AUTO-RELE-001 category: Dev confidence_score: 0.99 tags: [auto-reinforced, reinforcement-learning, rl, markov-decision-process, reward, policy, agent] last_reinforced: 2026-04-20

Reinforcement-Learning

📌 한 줄 통찰 (The Karpathy Summary)

"시행착오를 통한 우승의 기록: 정답이 정해진 데이터를 공부하는 대신, 가상의 환경에서 무수히 많은 행동을 해보고 그 결과로 주어지는 보상(Reward)을 극대화하는 방향으로 스스로 '최적의 전략(Policy)'을 짜 나가는 야생의 학습법."

📖 구조화된 지식 (Synthesized Content)

강화 학습(RL)은 에이전트가 어떤 환경에서 보상을 최대화하는 행동을 학습하는 머신러닝의 한 분과입니다. (본 시스템 P-Reinforce의 원천 기술)

구성 요소 (MDP):
- Agent: 학습하는 주체 (예: Antigravity).
- State (S): 관찰하는 현재 상황.
- Action (A): 에이전트가 취하는 행동.
- Reward (R): 행동의 결과로 받는 점수 (성공 시 +, 실패 시 -).
- Policy (\pi): 어떤 상황에서 어떤 행동을 할지에 대한 전략.
왜 중요한가?:
- 미리 알 수 없는 복잡한 문제(게임, 주식, 지식 관리)를 풀기 위해, 스스로 실험하고 성장하는 인공지능을 만드는 유일한 방법이기 때문임. (Optimization의 정적 결정이 아닌 동적 과정)

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 과거에는 게임이나 단순 로직 정책에만 쓰였으나, 현대 정책은 LLM의 답변 품질을 인간의 선호도에 맞게 미세 조정하는 'RLHF(인간 피드백 기반 강화학습) 정책'을 통해 AI의 유용성과 안전성 정책을 혁신함(RL Update).
정책 변화(RL Update): 지식 베이스 구축 정책에서도, 대표님의 승인 정책 여부를 보상(Reward)으로 삼아 에이전트가 더 나은 문서 구조 정책과 요약 기술 정책을 스스로 학습해 나가는 '메타 강화학습 정책'으로 확장 중임.

🔗 지식 연결 (Graph)

Markov-Decision-Processes, Decision Theory, Optimization, P-Reinforce, Agentic-Workflow, Mastery
Modern Tech/Tools: OpenAI Gym, AlphaGo, PPO (Proximal Policy Optimization), RLHF.