--- id: wiki-2026-0508-reflection title: Reflection category: 10_Wiki/Topics status: needs_review canonical_id: self aliases: [P-Reinforce-AUTO-REFL-001] duplicate_of: none source_trust_level: A confidence_score: 0.96 tags: [auto-reinforced, reflection, Self-Correction, metacognition, feedback-loop, ai-Reasoning] raw_sources: [] last_reinforced: 2026-04-20 github_commit: pending inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08) tech_stack: language: unspecified framework: unspecified --- # [[Reflection|Reflection]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "μ§€λŠ₯의 거울: 방금 ν–‰ν•œ μž‘μ—…μ΄λ‚˜ 내뱉은 닡변에 였λ₯˜λŠ” μ—†λŠ”μ§€, 더 λ‚˜μ€ 방법은 μ—†μ—ˆλŠ”μ§€ 슀슀둜 ν•œλ°œ λ¬ΌλŸ¬λ‚˜ κ²€ν† ν•¨μœΌλ‘œμ¨, κ³ μ •λœ μ„±λŠ₯을 λ„˜μ–΄ μ‹€μ‹œκ°„μœΌλ‘œ 자기 κ°œμ„ μ„ μ΄λ€„λ‚΄λŠ” '지각 μžˆλŠ” μ‹œμŠ€ν…œ'의 ν•„μˆ˜ κΈ°λŠ₯." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) λ¦¬ν”Œλ ‰μ…˜(Reflection) ν˜Ήμ€ 자기 성찰은 μ§€λŠ₯ 체계가 μžμ‹ μ˜ μƒνƒœλ‚˜ 좜λ ₯물을 슀슀둜 λΆ„μ„ν•˜κ³  ν‰κ°€ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€. 1. **AIμ—μ„œμ˜ κ΅¬ν˜„ (Agentic Reflection)**: * **Self-Critique**: "λ‚΄ λ‹΅λ³€μ˜ 약점은 무엇인가?"라고 자문. * **Error Detection**: 논리적 λͺ¨μˆœμ΄λ‚˜ 팩트 체크 μ‹€νŒ¨ 감지. ([[Reliability|Reliability]]와 μ—°κ²°) * **Adjustment**: κ°μ§€λœ 였λ₯˜λ₯Ό 기반으둜 μž¬μ‹€ν–‰ κ³„νš 수립. (P-Reinforce의 κΈ°λ³Έ 원리) 2. **μ™œ μ€‘μš”ν•œκ°€?**: * λ‹¨λ°œμ„± 좔둠은 ν™˜κ°(Hallucination)에 μ·¨μ•½ν•˜μ§€λ§Œ, λ¦¬ν”Œλ ‰μ…˜ 단계λ₯Ό 거친 μ§€λŠ₯은 비약적인 정확도와 μ‹ λ’°μ„± ν–₯상을 보이기 λ•Œλ¬Έμž„. (Metacognitionκ³Ό μ—°κ²°) ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & Updates) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” μ™ΈλΆ€μ˜ μ •λ‹΅ μ •μ±…(Ground truth)μ—λ§Œ μ˜μ‘΄ν–ˆμœΌλ‚˜, ν˜„λŒ€ 정책은 λͺ¨λΈ λ‚΄λΆ€μ˜ 지식듀끼리 λŒ€μ‘°ν•˜μ—¬ λͺ¨μˆœ 정책을 μ°ΎλŠ” '내적 일관성 μ •μ±…'을 ν†΅ν•œ μžκ°€ μ„±μ°° 정책이 κ°€λŠ₯해짐(RL Update). - **μ •μ±… λ³€ν™”(RL Update)**: λ‹¨μˆœ ν…μŠ€νŠΈ μ„±μ°° 정책을 λ„˜μ–΄, μ½”λ“œλ₯Ό μ‹€ν–‰ν•΄ 보고 μ—λŸ¬κ°€ λ‚˜λ©΄ 슀슀둜 λ””λ²„κΉ…ν•˜λŠ” 'μ‹€ν–‰ κ²°κ³Ό 기반 μ„±μ°° μ •μ±…'이 자율 μ—μ΄μ „νŠΈμ˜ 핡심 기술 μ •μ±…μœΌλ‘œ 자리 작음. ([[Problem-Solving|Problem-Solving]]와 μ—°κ²°) ## πŸ”— 지식 μ—°κ²° (Graph) - [[Reliability|Reliability]], [[P-Reinforce|P-Reinforce]], Metacognition, [[Problem-Solving|Problem-Solving]], [[Feedback-Loops|Feedback-Loops]] - **Modern Tech/Tools**: Reflexion (Framework), Self-Correction algorithms, AI Debugging. --- ## πŸ€– LLM ν™œμš© 힌트 (How to Use This Knowledge) **μ–Έμ œ 이 지식을 μ“°λŠ”κ°€:** - *(TODO)* **μ–Έμ œ μ“°λ©΄ μ•ˆ λ˜λŠ”κ°€:** - *(TODO)* ## πŸ§ͺ 검증 μƒνƒœ (Validation) - **정보 μƒνƒœ:** needs_review - **좜처 신뒰도:** A - **κ²€ν†  이유:** *(P-Reinforce Phase 1 μžλ™ μ •κ·œν™”. λ³Έλ¬Έ 검증 ν•„μš”.)* ## 🧬 쀑볡 검사 (Duplicate Check) - **κΈ°μ‘΄ μœ μ‚¬ λ¬Έμ„œ:** *(TODO: μΈλ±μ„œ ν΄λŸ¬μŠ€ν„° 리포트 μ°Έμ‘°)* - **처리 방식:** UPDATE (μžλ™ μ •κ·œν™”) - **처리 이유:** Phase 1 μ •κ·œν™” β€” μ˜› ν…œν”Œλ¦Ώ/λˆ„λ½ ν•„λ“œ 보강. ## πŸ•“ λ³€κ²½ 이λ ₯ (Changelog) | λ‚ μ§œ | λ³€κ²½ λ‚΄μš© | 처리 방식 | 신뒰도 | |------|-----------|-----------|--------| | 2026-05-08 | P-Reinforce Phase 1 μ •κ·œν™” (frontmatter + 헀더 ν‘œμ€€ν™”) | UPDATE | A | ## πŸ’» μ½”λ“œ νŒ¨ν„΄ (Code Patterns) **νŒ¨ν„΄ 1:** *(TODO: 이 ν”„λ‘œμ νŠΈ μ»¨λ²€μ…˜ λ°˜μ˜ν•œ ꡬ쑰 μŠ€μΌˆλ ˆν†€)* ```text # TODO ``` ## πŸ€” μ˜μ‚¬κ²°μ • κΈ°μ€€ (Decision Criteria) **선택 Aλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **선택 Bλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **κΈ°λ³Έκ°’:** > *(TODO)* ## ❌ μ•ˆν‹°νŒ¨ν„΄ (Anti-Patterns) - **[μ•ˆν‹°νŒ¨ν„΄]:** *(TODO: 무엇을 ν•˜λ©΄ μ•ˆ λ˜λŠ”κ°€ + 이유 + λŒ€μ‹  무엇을)*