bluemsi/2nd

Files

T

Antigravity Agent 6445fcc05b docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links

2026-05-02 09:18:34 +09:00

1.8 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

P-REINFORCE-AI-RLAIF

10_Wiki/💡 Topics/AI

0.95

Alignment

RLAIF

AISafety

Scalability

2026-04-20

RLAIF (AI 피드백 기반 강화학습)

📌 한 줄 통찰 (The Karpathy Summary)

"인간의 자리를 더 똑똑한 AI가 대신하는 정렬 가속기." 인간의 피드백(RLHF) 대신 고성능 AI 모델이 생성한 피드백을 사용하여 다른 모델을 정렬하고 학습시키는 기술이다.

📖 구조화된 지식 (Synthesized Content)

The Concept:
- RLHF는 인간 노동력에 의존하므로 비용이 많이 들고 속도가 느리다.
- RLAIF는 '선생님 AI'가 헌법(규칙)에 따라 학생 모델의 답변을 평가하고 점수를 매기게 한다.
Workflow:
- 모델A가 두 개의 답변 생성 -> 모델B(평가자)가 규칙에 근거해 순위 결정 -> 이 라벨링된 데이터를 바탕으로 모델A 강화학습.
Significance: 정렬의 스케일링(Scaling Alignment)을 가능하게 하여, 인간이 일일이 검수할 수 없는 방대한 데이터 세트에서도 고품질 정렬을 유지한다.

⚠️ 모순 및 업데이트 (RL Update)

'AI가 AI를 가르친다'는 점에서 편항의 증폭이나 모델 붕괴(Model Collapse)의 우려가 있다. 이를 막기 위해 인간 감시자(Human Overseer)가 루프에 포함되어 AI의 평가 기준이 올바른지 정기적으로 검사하는 하이브리드 방식이 권장된다.

🔗 지식 연결 (Graph)

Related: Constitutional AI (헌법 AI) , RLHF (인간 피드백 기반 강화학습)
Risk: Model Collapse (모델 붕괴 현상)