--- id: P-REINFORCE-AUTO-ICLN-001 category: "[[10_Wiki/πŸ’‘ Topics/AI]]" confidence_score: 0.96 tags: [auto-reinforced, in-context-learning, icl, llm, prompting, few-shot, zero-shot, deep-learning] last_reinforced: 2026-04-20 --- # [[In-Context-Learning]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "κ°€λ₯΄μΉ˜μ§€ μ•Šκ³  λ³΄μ—¬μ£ΌλŠ” ν•™μŠ΅: κ±°λŒ€ μ–Έμ–΄ λͺ¨λΈ(LLM)의 κ°€μ€‘μΉ˜λ₯Ό 단 1λ°”μ΄νŠΈλ„ μˆ˜μ •ν•˜μ§€ μ•Šκ³ , 였직 μž…λ ₯ ν”„λ‘¬ν”„νŠΈ μ•ˆμ— λͺ‡ κ°€μ§€ μ˜ˆμ‹œ(Few-shot)λ₯Ό λ„£λŠ” κ²ƒλ§ŒμœΌλ‘œλ„ λͺ¨λΈμ΄ μ¦‰μ„μ—μ„œ κ·œμΉ™μ„ νŒŒμ•…ν•΄ 정닡을 λ‚΄λ†“κ²Œ λ§Œλ“œλŠ” LLM의 창발적 λŠ₯λ ₯." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) λ¬Έλ§₯ λ‚΄ ν•™μŠ΅(In-Context-Learning, ICL)은 LLM이 μΆ”λ‘  μ‹œμ μ— μ£Όμ–΄μ§„ 정보λ₯Ό λ°”νƒ•μœΌλ‘œ μƒˆλ‘œμš΄ μž‘μ—…μ„ μˆ˜ν–‰ν•˜λŠ” ν˜„μƒμž…λ‹ˆλ‹€. 1. **μž‘λ™ 방식**: * **Zero-shot**: μ˜ˆμ‹œ 없이 λ°”λ‘œ λͺ…λ Ή μˆ˜ν–‰. * **Few-shot**: "A=1, B=2, C=?" 처럼 λͺ‡ 개의 μ˜ˆμ‹œλ₯Ό λ¬Έλ§₯ 정책에 포함. * **Pattern Matching**: λͺ¨λΈ λ‚΄λΆ€μ˜ μˆ˜μ–΅ 개 κ°€μ€‘μΉ˜ 정책듀이 λ¬Έλ§₯ μ •μ±… μ†μ˜ 톡계적 νŒ¨ν„΄ 정책을 μ¦‰μ‹œ 포착. (Pattern-Analysis와 μ—°κ²°) 2. **μ™œ μ€‘μš”ν•œκ°€?**: * 맀번 λΉ„μš© 정책이 많이 λ“œλŠ” νŒŒμΈνŠœλ‹(Fine-tuning) μ •μ±… 없이도, λͺ¨λΈμ„ λ‹€μ–‘ν•œ 도메인 정책에 μ¦‰μ‹œ 적용 μ •μ±…ν•  수 μžˆλŠ” μœ μ—°μ„± 정책을 μ œκ³΅ν•˜κΈ° λ•Œλ¬Έμž„. (Efficiency와 μ—°κ²°) ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” "λͺ¨λΈμ΄ ν•™μŠ΅ν•œ 적 μ—†λŠ” 지식 정책은 λͺ¨λ₯Έλ‹€"λŠ” 게 상식 μ •μ±…μ΄μ—ˆμœΌλ‚˜, ICL 정책은 λͺ¨λΈμ΄ 'ν•™μŠ΅ 방법 μ •μ±… 자체λ₯Ό ν•™μŠ΅ μ •μ±…'ν•œ μƒνƒœ(Meta-learning)μž„μ„ 보여주며 인곡지λŠ₯ νŒ¨λŸ¬λ‹€μž„ 정책을 뒀흔듦(RL Update). - **μ •μ±… λ³€ν™”(RL Update)**: μ΄μ œλŠ” λ‹¨μˆœ ν…μŠ€νŠΈ μ˜ˆμ‹œ 정책을 λ„˜μ–΄, λ³΅μž‘ν•œ μΆ”λ‘  κ³Όμ • μ •μ±…(Chain-of-Thought) 정책을 λ¬Έλ§₯ 정책에 λ„£μ–΄ 논리 μ •μ±… 였λ₯˜λ₯Ό μ€„μ΄κ±°λ‚˜, 수백만 ν† ν°μ˜ κ±°λŒ€ λ¬Έλ§₯ μ •μ±…(Long-context) 정책을 톡해 μ±… ν•œ κΆŒμ„ ν•œ λ²ˆμ— ICL 둜 μ²˜λ¦¬ν•˜λŠ” μ‹œλŒ€λ‘œ μ§„ν™” μ€‘μž„. (Reasoning와 μ—°κ²°) ## πŸ”— 지식 μ—°κ²° (Graph) - [[Pattern-Analysis]], [[Efficiency]], [[Reasoning]], [[Deep Learning (DL)]], [[Bias-Variance-Tradeoff]], [[Refinement]] - **Key Discovery**: GPT-3 paper ("Language Models are Few-Shot Learners"). ---