--- id: P-REINFORCE-AI-BESTN category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 0.98 tags: [LLM, Sampling, Best-of-N, Search, Generation] last_reinforced: 2026-04-20 --- # [[Best-of-N-Sampling]] (베슀트 였브 N μƒ˜ν”Œλ§) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "μ—΄ 번 찍어 μ•ˆ λ„˜μ–΄κ°€λŠ” λ‚˜λ¬΄ μ—†λ‹€." AIμ—κ²Œ N번 μ‹œλ„ν•˜κ²Œ ν•˜κ³ , 그쀑 κ°€μž₯ '정닡에 κ°€κΉŒμš΄' 결과물을 보상 λͺ¨λΈ(Reward Model)둜 κ³¨λΌλ‚΄λŠ” ν•„μŠΉ μ „λž΅μ΄λ‹€. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”λ‘  μ‹œκ°„ μ—°μ‚° (Inference-time Compute)**: - λͺ¨λΈμ˜ 크기λ₯Ό ν‚€μš°λŠ” λŒ€μ‹ , μΆ”λ‘  μ‹œμ μ— 더 λ§Žμ€ 계산을 μˆ˜ν–‰ν•˜μ—¬ λ‹΅λ³€μ˜ ν’ˆμ§ˆμ„ λ†’μ΄λŠ” 기법. 졜근 OpenAI o1 λ“± μΆ”λ‘  λͺ¨λΈμ˜ 핡심 원리 쀑 ν•˜λ‚˜λ‹€. - **Reward Modeling (RM)**: - N개의 λ‹΅λ³€ 쀑 μ–΄λ–€ 것이 κ°€μž₯ 쒋은지 νŒλ³„ν•˜λŠ” λ³„λ„μ˜ '감별사 AI'λ₯Ό νˆ¬μž…ν•œλ‹€. μΈκ°„μ˜ μ„ ν˜Έλ„(RLHF)λ₯Ό λ°˜μ˜ν•œ RM이 μ΅œμ’… 선택을 λ‹΄λ‹Ήν•œλ‹€. - **Majority Voting vs Selection**: - μˆ˜ν•™ 문제라면 λ‹΅λ³€λ“€ 쀑 κ°€μž₯ 많이 λ‚˜μ˜¨ κ°’(Majority Vote)을 νƒν•˜κ³ , 창의적 닡변이라면 RM μŠ€μ½”μ–΄κ°€ κ°€μž₯ 높은 것을 νƒν•œλ‹€. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (RL Update) - N이 클수둝 ν’ˆμ§ˆμ€ μ˜¬λΌκ°€μ§€λ§Œ λΉ„μš©κ³Ό 응닡 μ§€μ—° μ‹œκ°„(Latency)이 κΈ°ν•˜κΈ‰μˆ˜μ μœΌλ‘œ λŠ˜μ–΄λ‚œλ‹€. μ‹€μ‹œκ°„ μ„œλΉ„μŠ€μ—μ„œλŠ” N=3~5 μˆ˜μ€€μ˜ νƒ€ν˜‘μ μ΄ μš”κ΅¬λ˜λ©°, μ΅œκ·Όμ—λŠ” μžκ°€ μˆ˜μ •(Self-correction) λŠ₯λ ₯을 ν‚€μš°λŠ” μͺ½μœΌλ‘œ 연ꡬ가 이동 쀑이닀. ## πŸ”— 지식 μ—°κ²° (Graph) - Related: Reinforcement Learning , AI λͺ¨λΈ 평가 - Context: [[Information Theory]]