bluemsi/2nd

Files

T

bluemsi 6b86b0da4c feat: complete wikification of War Commander batch 1&2 and final grey dot cleanup

2026-04-27 18:58:22 +09:00

1.9 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

BON-001

10_Wiki/💡 Topics/AI

1.0

ai-inference

llm

sampling-strategy

post-processing

2026-04-26

Best-of-N Sampling (최적 샘플링)

📌 한 줄 통찰 (The Karpathy Summary)

"많이 뽑고 가장 좋은 것을 골라라" — 모델로부터 N개의 응답을 생성한 뒤, 별도의 보상 모델(RM)이나 채점 기준을 통해 가장 품질이 높은 최적의 답변 하나를 선택하는 추론 최적화 기법.

📖 구조화된 지식 (Synthesized Content)

추출된 패턴: 생성(Generation)과 검증(Verification) 단계를 분리하여, 단일 생성 시 발생할 수 있는 환각(Hallucination)이나 저품질 응답 리스크를 통계적으로 억제하는 패턴.
세부 내용:
- N개 생성: 동일한 프롬프트에 대해 온도를 조절하며 독립적인 N개의 응답 후보군을 확보.
- Reward Model (RM): 각 후보 응답의 논리성, 안전성, 정확성을 평가하여 점수를 부여.
- Rejection Sampling: 점수가 낮은 응답은 버리고 최고점을 받은 응답만을 최종 출력으로 선택.
- 연산 비용: 추론 시 N배의 컴퓨팅 자원이 소모되지만, 결과물의 신뢰도를 비약적으로 상승시킴.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 단순히 확률 기반으로 다음 토큰을 고르던 방식에서, 전체 문맥의 완성도를 사후에 평가하는 '검증 기반 추론'으로의 발전.
정책 변화: 실시간 응답이 중요한 챗봇보다는 정확도가 생명인 코드 생성이나 데이터 추출 에이전트에서 주로 채택됨.

🔗 지식 연결 (Graph)

Parent: 10_Wiki/💡 Topics/AI
Related: Chain-of-Thought, Self-Consistency, Reward-Modeling
Raw Source: 00_Raw/2026-04-20/Best-of-N Sampling.md