feat: Wiki 지식 자산 업데이트 - UX Scenarios, Frontend, Game Design, Topics 추가 [2026-05-08]
This commit is contained in:
@@ -1,27 +1,25 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AI-RLAIF
|
||||
category: Unified
|
||||
confidence_score: 0.95
|
||||
tags: [[Alignment|[Alignment]], RLAIF, AISafety, [[Scalability|Scalability]]]
|
||||
last_reinforced: 2026-04-20
|
||||
id: wiki-2026-0508-rlaif-ai-피드백-기반-강화학습
|
||||
title: RLAIF (AI 피드백 기반 강화학습)
|
||||
category: 10_Wiki/Topics/AI_and_ML
|
||||
status: merged
|
||||
redirect_to: AI_Safety_and_Alignment
|
||||
canonical_id: AI_Safety_and_Alignment
|
||||
aliases: [P-Reinforce-REDIRECT-RLAIF-KO]
|
||||
duplicate_of: none
|
||||
source_trust_level: A
|
||||
confidence_score: 0.92
|
||||
tags: [redirect]
|
||||
raw_sources: []
|
||||
last_reinforced: 2026-05-08
|
||||
github_commit: pending
|
||||
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
|
||||
---
|
||||
|
||||
# [[RLAIF (AI 피드백 기반 강화학습)|RLAIF (AI 피드백 기반 강화학습)]]
|
||||
# [[RLAIF (AI 피드백 기반 강화학습)]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "인간의 자리를 더 똑똑한 AI가 대신하는 정렬 가속기." 인간의 피드백(RLHF) 대신 고성능 AI 모델이 생성한 피드백을 사용하여 다른 모델을 정렬하고 학습시키는 기술이다.
|
||||
> [!IMPORTANT]
|
||||
> 이 문서는 고밀도 지식 자산 통합 정책에 따라 **[[AI_Safety_and_Alignment]]**으로 통합되었습니다.
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
- **The Concept**:
|
||||
- RLHF는 인간 노동력에 의존하므로 비용이 많이 들고 속도가 느리다.
|
||||
- RLAIF는 '선생님 AI'가 헌법(규칙)에 따라 학생 모델의 답변을 평가하고 점수를 매기게 한다.
|
||||
- **Workflow**:
|
||||
- 모델A가 두 개의 답변 생성 -> 모델B(평가자)가 규칙에 근거해 순위 결정 -> 이 라벨링된 데이터를 바탕으로 모델A 강화학습.
|
||||
- **Significance**: 정렬의 스케일링(Scaling Alignment)을 가능하게 하여, 인간이 일일이 검수할 수 없는 방대한 데이터 세트에서도 고품질 정렬을 유지한다.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (RL Update)
|
||||
- 'AI가 AI를 가르친다'는 점에서 편항의 증폭이나 모델 붕괴(Model Collapse)의 우려가 있다. 이를 막기 위해 인간 감시자(Human Overseer)가 루프에 포함되어 AI의 평가 기준이 올바른지 정기적으로 검사하는 하이브리드 방식이 권장된다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- Related: [[Constitutional AI (헌법 AI)|Constitutional AI (헌법 AI)]] , RLHF (인간 피드백 기반 강화학습)
|
||||
- Risk: Model Collapse (모델 붕괴 현상)
|
||||
---
|
||||
*Redirected to: [[AI_Safety_and_Alignment]]*
|
||||
|
||||
Reference in New Issue
Block a user