[G1-Sync] Manual knowledge update
This commit is contained in:
@@ -2,7 +2,7 @@
|
||||
id: RLHF-001
|
||||
category: "10_Wiki/💡 Topics/AI"
|
||||
confidence_score: 1.0
|
||||
tags: [ai, llm, reinforcement-learning, alignment, rlhf]
|
||||
tags: [ai, llm, [[Reinforcement-Learning]], [[Alignment]], rlhf]
|
||||
last_reinforced: 2026-04-26
|
||||
---
|
||||
|
||||
@@ -16,7 +16,7 @@ last_reinforced: 2026-04-26
|
||||
- **세부 프로세스:**
|
||||
- **1. Pre-training:** 대규모 텍스트 데이터로 언어의 기본 구조 학습.
|
||||
- **2. Reward Modeling:** 모델의 여러 답변 후보에 대해 인간이 순위를 매기고, 이 선호도를 예측하는 별도의 보상 모델 학습.
|
||||
- **3. RL Fine-tuning:** 보상 모델이 높은 점수를 주는 방향으로 PPO와 같은 알고리즘을 사용하여 주 모델(Policy)을 업데이트.
|
||||
- **3. RL [[Fine-tuning]]:** 보상 모델이 높은 점수를 주는 방향으로 PPO와 같은 알고리즘을 사용하여 주 모델(Policy)을 업데이트.
|
||||
- **의의:** 단순한 다음 단어 예측을 넘어, 인간과 자연스럽고 안전하게 대화할 수 있는 챗봇(ChatGPT 등) 탄생의 핵심 동력.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
||||
|
||||
Reference in New Issue
Block a user