[G1-Sync] Manual knowledge update
This commit is contained in:
@@ -1,5 +1,5 @@
|
||||
---
|
||||
id: P-REINFORCE-AUTO-RELE-001
|
||||
id: [[P-Reinforce]]-AUTO-RELE-001
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 0.99
|
||||
tags: [auto-reinforced, reinforcement-learning, rl, markov-decision-process, reward, policy, agent]
|
||||
@@ -16,12 +16,12 @@ last_reinforced: 2026-04-20
|
||||
|
||||
1. **구성 요소 (MDP)**:
|
||||
* **Agent**: 학습하는 주체 (예: Antigravity).
|
||||
* **State (S)**: 관찰하는 현재 상황.
|
||||
* **[[State]] (S)**: 관찰하는 현재 상황.
|
||||
* **Action (A)**: 에이전트가 취하는 행동.
|
||||
* **Reward (R)**: 행동의 결과로 받는 점수 (성공 시 +, 실패 시 -).
|
||||
* **Policy ($\pi$)**: 어떤 상황에서 어떤 행동을 할지에 대한 전략.
|
||||
2. **왜 중요한가?**:
|
||||
* 미리 알 수 없는 복잡한 문제(게임, 주식, 지식 관리)를 풀기 위해, 스스로 실험하고 성장하는 인공지능을 만드는 유일한 방법이기 때문임. (Optimization의 정적 결정이 아닌 동적 과정)
|
||||
* 미리 알 수 없는 복잡한 문제(게임, 주식, 지식 관리)를 풀기 위해, 스스로 실험하고 성장하는 인공지능을 만드는 유일한 방법이기 때문임. ([[Optimization]]의 정적 결정이 아닌 동적 과정)
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
||||
- **과거 데이터와의 충돌**: 과거에는 게임이나 단순 로직 정책에만 쓰였으나, 현대 정책은 LLM의 답변 품질을 인간의 선호도에 맞게 미세 조정하는 'RLHF(인간 피드백 기반 강화학습) 정책'을 통해 AI의 유용성과 안전성 정책을 혁신함(RL Update).
|
||||
|
||||
Reference in New Issue
Block a user