1.9 KiB
1.9 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | ||||
|---|---|---|---|---|---|---|---|---|
| BON-001 | 10_Wiki/💡 Topics/AI | 1.0 |
|
2026-04-26 |
Best-of-N Sampling (최적 샘플링)
📌 한 줄 통찰 (The Karpathy Summary)
"많이 뽑고 가장 좋은 것을 골라라" — 모델로부터 N개의 응답을 생성한 뒤, 별도의 보상 모델(RM)이나 채점 기준을 통해 가장 품질이 높은 최적의 답변 하나를 선택하는 추론 최적화 기법.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: 생성(Generation)과 검증(Verification) 단계를 분리하여, 단일 생성 시 발생할 수 있는 환각(Hallucination)이나 저품질 응답 리스크를 통계적으로 억제하는 패턴.
- 세부 내용:
- N개 생성: 동일한 프롬프트에 대해 온도를 조절하며 독립적인 N개의 응답 후보군을 확보.
- Reward Model (RM): 각 후보 응답의 논리성, 안전성, 정확성을 평가하여 점수를 부여.
- Rejection Sampling: 점수가 낮은 응답은 버리고 최고점을 받은 응답만을 최종 출력으로 선택.
- 연산 비용: 추론 시 N배의 컴퓨팅 자원이 소모되지만, 결과물의 신뢰도를 비약적으로 상승시킴.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 단순히 확률 기반으로 다음 토큰을 고르던 방식에서, 전체 문맥의 완성도를 사후에 평가하는 '검증 기반 추론'으로의 발전.
- 정책 변화: 실시간 응답이 중요한 챗봇보다는 정확도가 생명인 코드 생성이나 데이터 추출 에이전트에서 주로 채택됨.
🔗 지식 연결 (Graph)
- Parent: 10_Wiki/💡 Topics/AI
- Related: Chain-of-Thought, Self-Consistency, Reward-Modeling
- Raw Source: 00_Raw/2026-04-20/Best-of-N Sampling.md