--- id: BON-001 category: Unified confidence_score: 1.0 tags: [ai-inference, llm, sampling-[[Strategy|Strategy]], post-[[Processing|Processing]]] last_reinforced: 2026-04-26 --- # [[Best-of-N Sampling (최적 샘플링)|Best-of-N Sampling (최적 샘플링)]] ## 📌 한 줄 통찰 (The Karpathy Summary) > "많이 뽑고 가장 좋은 것을 골라라" — 모델로부터 N개의 응답을 생성한 뒤, 별도의 보상 모델(RM)이나 채점 기준을 통해 가장 품질이 높은 최적의 답변 하나를 선택하는 추론 최적화 기법. ## 📖 구조화된 지식 (Synthesized Content) - **추출된 패턴:** 생성(Generation)과 검증(Verification) 단계를 분리하여, 단일 생성 시 발생할 수 있는 환각(Hallucination)이나 저품질 응답 리스크를 통계적으로 억제하는 패턴. - **세부 내용:** - **N개 생성:** 동일한 프롬프트에 대해 온도를 조절하며 독립적인 N개의 응답 후보군을 확보. - **Reward Model (RM):** 각 후보 응답의 논리성, 안전성, 정확성을 평가하여 점수를 부여. - **Rejection Sampling:** 점수가 낮은 응답은 버리고 최고점을 받은 응답만을 최종 출력으로 선택. - **연산 비용:** 추론 시 N배의 컴퓨팅 자원이 소모되지만, 결과물의 신뢰도를 비약적으로 상승시킴. ## ⚠️ 모순 및 업데이트 (Contradictions & RL Update) - **과거 데이터와의 충돌:** 단순히 확률 기반으로 다음 토큰을 고르던 방식에서, 전체 문맥의 완성도를 사후에 평가하는 '검증 기반 추론'으로의 발전. - **정책 변화:** 실시간 응답이 중요한 챗봇보다는 정확도가 생명인 코드 생성이나 데이터 추출 에이전트에서 주로 채택됨. ## 🔗 지식 연결 (Graph) - **Parent:** 10_Wiki/💡 Topics/AI - **Related:** Chain-of-Thought, Self-Consistency, Reward-Modeling - **Raw Source:** 00_Raw/2026-04-20/[[Best-of-N Sampling|Best-of-N Sampling]].md