bluemsi/2nd

Files

T

Antigravity Agent 6445fcc05b docs: finalized wiki integrity maintenance (v3.0 standard) - pruned 1400+ stubs and fixed 11k+ ghost links

2026-05-02 09:18:34 +09:00

2.6 KiB

Raw Blame History

id: P-Reinforce-AUTO-ACLE-001 category: "10_Wiki/💡 Topics/AI" confidence_score: 0.98 tags: [auto-reinforced, active-learning, machine-learning, Optimization, data-Efficiency, human-in-the-loop] last_reinforced: 2026-04-20

Active Learning

📌 한 줄 통찰 (The Karpathy Summary)

"똑똑하게 질문해서 배우기: 모든 데이터를 맹목적으로 학습하는 대신, 정답을 알았을 때 모델의 지능이 가장 크게 상승할 것 같은 '핵심 질문(데이터)'만 골라 인간에게 정답을 요청하는 고효율 학습 전략."

📖 구조화된 지식 (Synthesized Content)

능동 학습(Active Learning)은 머신러닝 모델이 스스로 학습 과정에 참여하여, 레이블(Label)되지 않은 데이터 중 학습에 가장 도움이 될 데이터를 선별하고 전문가에게 레이블링을 요청하는 기법입니다.

동작 원리 (Query Strategy):
- Uncertainty Sampling: 모델이 정답을 가장 확신하지 못하는(Entropy가 높은) 데이터를 고름.
- Query-by-Committee: 여러 모델의 의견이 가장 일치하지 않는 데이터를 추출.
- Representativeness: 전체 데이터의 분포를 가장 잘 대표하는 표본을 선택.
왜 필요한가?:
- 데이터는 많지만 '정답'을 다는 비용(인간 전문가의 시간)이 비쌀 때 유용. (예: 의료 영상 분석, 자율주행 데이터 레이블링)
기대 효과:
- 전체 데이터의 일부(10-20%)만 학습하고도 전체를 학습한 것과 비슷한 성능 달성 가능 (Data Efficiency).

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 과거에는 단순히 '양질의 큰 데이터셋' 정책에 의존했으나, 현대 AI 인프라 정책은 데이터 전처리 비용을 줄이기 위해 시작부터 모델이 개입하는 'AI-driven Labeling 정책'을 핵심 인프라로 구축함(RL Update).
정책 변화(RL Update): 인간과의 상호작용 피로도를 낮추기 위해, "꼭 필요한 질문만 던지는" 에이전트의 예절 및 효율성 알고리즘을 최적화하는 정책이 RAG 부문 및 도메인 특화 모델 개발의 표준이 됨.

🔗 지식 연결 (Graph)

SFT (Supervised Fine-Tuning), RLHF (인간 피드백 기반 강화 학습), Resource-Management, Decision Theory, Scientific Communication
Modern Tech/Tools: Prodigy (Labeling tool), ModAL (Python framework for Active Learning).