--- id: feedback-loop title: "Feedback Loop" category: "10_Wiki/Topics" status: "draft" verification_status: "conceptual" canonical_id: "" aliases: ["Closed-loop evolution", "Iterative refinement cycle"] duplicate_of: "" source_trust_level: "B" confidence_score: 0.85 created_at: 2026-06-12 updated_at: 2026-06-12 review_reason: "" merge_history: [] tags: ["research", "self envolving", "cybernetics"] raw_sources: ["NotebookLM Synthesis"] applied_in: ["Darwin GΓΆdel Machine (DGM)", "Cato Multi-Modal Vulnerability Protection Agent", "NVIDIA Hermes Agent", "ASI-Evolve", "Voyager", "SEA-TS"] github_commit: "" --- # [[Feedback Loop]] ## 🎯 ν•œ 쀄 톡찰 (One-line insight) μžκ°€ μ§„ν™” μ‹œμŠ€ν…œμ—μ„œ ν”Όλ“œλ°± λ£¨ν”„λŠ” μ‹œμŠ€ν…œμ˜ μ‹€ν–‰ κ²°κ³Ό(ꢀ적)와 μ™ΈλΆ€/λ‚΄λΆ€ μ‹ ν˜Έλ₯Ό ν•™μŠ΅ λ°μ΄ν„°λ‘œ λ³€ν™˜ν•˜μ—¬ λͺ¨λΈμ˜ μ •μ±…, 도ꡬ, μ•„ν‚€ν…μ²˜λ₯Ό 자율적으둜 μ΅œμ ν™”ν•˜λŠ” 핡심적인 **μž¬κ·€μ  κ°œμ„  μ—”μ§„**이닀 [1-3]. ## 🧠 핡심 κ°œλ… (Core concepts) - **νμ‡„ν˜• 루프 μ§„ν™” (Closed-loop Evolution):** μ—μ΄μ „νŠΈκ°€ ν™˜κ²½κ³Ό μƒν˜Έμž‘μš©ν•˜κ³ , κ·Έ 결과둜 얻은 ν”Όλ“œλ°±μ„ 톡해 슀슀둜λ₯Ό μˆ˜μ •ν•˜λ©°, μˆ˜μ •λœ μƒνƒœμ—μ„œ λ‹€μ‹œ μƒν˜Έμž‘μš©ν•˜λŠ” 반볡적인 자기 μ°Έμ‘° 과정이닀 [4-6]. - **닀쀑 λͺ¨λ‹¬ μ‹ ν˜Έ (Multimodal Feedback):** 슀칼라 보상(Numerical Rewards), μžμ—°μ–΄ 비평(Textual Feedback), μ‹€ν–‰ 둜그(Compiler Errors), λ‚΄λΆ€ 확신도(Internal Confidence) λ“± μ‹œμŠ€ν…œ κ°œμ„ μ„ μœ„ν•΄ ν™œμš©λ˜λŠ” λ‹€μ–‘ν•œ ν˜•νƒœμ˜ μž…λ ₯ μ‹ ν˜Έμ΄λ‹€ [7-10]. - **κ²½ν—˜ 의쑴적 μ—…λ°μ΄νŠΈ (Experience-dependent Updates):** λ‹¨μˆœνžˆ 정적인 데이터λ₯Ό ν•™μŠ΅ν•˜λŠ” 것이 μ•„λ‹ˆλΌ, μ—μ΄μ „νŠΈκ°€ 직접 μƒμ„±ν•œ ꢀ적(Trajectories)κ³Ό 그에 λ”°λ₯Έ 결과에 κΈ°λ°˜ν•˜μ—¬ λ§€κ°œλ³€μˆ˜λ‚˜ ꡬ쑰λ₯Ό λ³€κ²½ν•˜λŠ” 방식이닀 [2, 4, 11]. - **자기 보상 및 자기 비평 (Self-Rewarding & Self-Critique):** μ™ΈλΆ€μ˜ 인간 λ ˆμ΄λΈ” 없이도 λͺ¨λΈ μŠ€μŠ€λ‘œκ°€ 좜λ ₯물의 ν’ˆμ§ˆμ„ ν‰κ°€ν•˜κ³  μˆ˜μ • λ°©ν–₯을 κ²°μ •ν•˜λŠ” λ©”μ»€λ‹ˆμ¦˜μ΄λ‹€ [9, 12, 13]. ## 🧩 μΆ”μΆœλœ νŒ¨ν„΄ (Extracted patterns) - **P-E-R-M (Plan-Execute-Reflect-Memorize) 루프:** μž‘μ—…μ„ κ³„νšν•˜κ³  μ‹€ν–‰ν•œ ν›„, κ·Έ κ²°κ³Όλ₯Ό λ°˜μ„±ν•˜μ—¬ μœ μ˜λ―Έν•œ 정보λ₯Ό λ©”λͺ¨λ¦¬μ— μ €μž₯ν•˜κ³  λ‹€μŒ κ³„νšμ— λ°˜μ˜ν•˜λŠ” 섀계 νŒ¨ν„΄μ΄λ‹€ [11, 14]. - **G-V-R (Generate-Verify-Refine) 사이클:** 해결책을 μƒμ„±ν•˜κ³ , 검증기(Verifier)λ₯Ό 톡해 ν™•μΈν•˜λ©°, 였λ₯˜ λ°œμƒ μ‹œ 이λ₯Ό μ •μ œν•˜μ—¬ λ‹€μ‹œ μ‹œλ„ν•˜λŠ” 반볡적 ꡬ쑰이닀 [15, 16]. - **Textual Backpropagation (ν…μŠ€νŠΈ 기반 μ—­μ „νŒŒ):** 수치적 λ―ΈλΆ„κ°’ λŒ€μ‹  ν…μŠ€νŠΈ ν˜•νƒœμ˜ ν”Όλ“œλ°±(였λ₯˜ λ©”μ‹œμ§€ λ“±)을 μ‹ ν˜Έλ‘œ μ‚¬μš©ν•˜μ—¬ ν”„λ‘¬ν”„νŠΈλ‚˜ μ—μ΄μ „νŠΈ νŒ€ ꡬ성을 μ΅œμ ν™”ν•˜λŠ” μ „λž΅μ΄λ‹€ [17-20]. - **Teacher-Student / Proposer-Solver 곡진화:** ν•œ μ—μ΄μ „νŠΈκ°€ 과제λ₯Ό μ œμ•ˆν•˜κ³  λ‹€λ₯Έ μ—μ΄μ „νŠΈκ°€ 이λ₯Ό ν•΄κ²°ν•˜λ©° μ„œλ‘œμ˜ λŠ₯λ ₯을 μžκ·Ήν•˜μ—¬ λ™λ°˜ μƒμŠΉμ‹œν‚€λŠ” μƒν˜Έ ν”Όλ“œλ°± ꡬ쑰이닀 [18, 21-23]. ## πŸ“– μ„ΈλΆ€ λ‚΄μš© (Details) - **μž‘λ™ λ©”μ»€λ‹ˆμ¦˜:** ν”Όλ“œλ°± λ£¨ν”„λŠ” (1) 데이터 생성(μ‹€ν–‰ ꢀ적), (2) 평가(보상 λ˜λŠ” 비평 μˆ˜μ‹ ), (3) μˆ˜μ •μ•ˆ λ„μΆœ(μ½”λ“œ/ν”„λ‘¬ν”„νŠΈ μž¬μž‘μ„±), (4) 검증 및 톡합(μ„±λŠ₯ ν–₯상 확인 ν›„ 적용)의 단계λ₯Ό κ±°μΉœλ‹€ [1, 24, 25]. - **ν”Όλ“œλ°±μ˜ μΆœμ²˜μ™€ μœ ν˜•:** - **λ‚΄λΆ€ ν”Όλ“œλ°±:** λͺ¨λΈμ˜ ν™•λ₯  μΆ”μ •μΉ˜λ‚˜ μžκ°€ 비평 λ©”μ»€λ‹ˆμ¦˜μ„ 톡해 μƒμ„±λ˜λ©°, μΈκ°„μ˜ κ°œμž…μ„ 쀄이고 ν™•μž₯성을 높인닀 [9]. - **μ™ΈλΆ€ ν”Όλ“œλ°±:** 컴파일러 였λ₯˜, μƒŒλ“œλ°•μŠ€ μ‹€ν–‰ κ²°κ³Ό, ν™˜κ²½ 보상 λ˜λŠ” μ—°κ΅¬μžμ˜ 리뷰λ₯Ό 톡해 제곡되며, 객관적인 μ •λ‹΅ 기쀀을 μ œμ‹œν•œλ‹€ [10, 26, 27]. - **μ§„ν™”μ˜ λŒ€μƒ (Evolutionary Loci):** 루프λ₯Ό 톡해 λͺ¨λΈ κ°€μ€‘μΉ˜(Weights)뿐만 μ•„λ‹ˆλΌ λŸ°νƒ€μž„ μ»¨ν…μŠ€νŠΈ(Prompts), μž₯κΈ° κΈ°μ–΅(Memory Bank), μ‹€ν–‰ κ°€λŠ₯ν•œ 도ꡬ μ„ΈνŠΈ(Toolsets), 그리고 μ—μ΄μ „νŠΈ κ°„μ˜ ν˜‘μ—… ꡬ쑰(Workflow Topology)κ°€ λ³€λͺ¨ν•œλ‹€ [28-30]. - **μ‹œκ°„μ  차원:** - **Intra-test-time:** μž‘μ—… μˆ˜ν–‰ 도쀑 μ‹€μ‹œκ°„μœΌλ‘œ λ°œμƒν•˜λŠ” ν”Όλ“œλ°± λ£¨ν”„λ‘œ, 주둜 μ»¨ν…μŠ€νŠΈ λ‚΄ ν•™μŠ΅(ICL)μ΄λ‚˜ κ³„νš μˆ˜μ •μ— ν™œμš©λœλ‹€ [31, 32]. - **Inter-test-time:** μž‘μ—… μ™„λ£Œ ν›„ 사후에 λ°œμƒν•˜λŠ” λ£¨ν”„λ‘œ, μΆ•μ λœ κ²½ν—˜μ„ 톡해 λͺ¨λΈμ„ λ―Έμ„Έ μ‘°μ •(SFT/RL)ν•˜κ±°λ‚˜ 영ꡬ적인 도ꡬ 라이브러리λ₯Ό ν™•μž₯ν•œλ‹€ [33, 34]. - **μ‹œμŠ€ν…œμ  μœ„ν—˜μ„±:** 루프가 μ™ΈλΆ€ ν˜„μ‹€(Exogenous signal)κ³Ό λ‹¨μ ˆλœ 채 κ³ λ¦½λ˜μ–΄ 반볡될 경우, 정보 정체와 'λͺ¨λΈ λΆ•κ΄΄(Model Collapse)', μ•ˆμ „μ„± κ°€μ΄λ“œλΌμΈμ΄ μΉ¨μ‹λ˜λŠ” 'μ•ˆμ „μ„± ν‘œλ₯˜(Safety Drift)' ν˜„μƒμ΄ λ°œμƒν•  수 μžˆλ‹€ [35-38]. ## βš–οΈ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & updates) - **μ™„μ „ μžμœ¨μ„±μ˜ μ—­μ„€:** Singularityλ‚˜ ASI μ‹œλ‚˜λ¦¬μ˜€μ—μ„œλŠ” μ‹œμŠ€ν…œμ˜ μ™„μ „ν•œ 자율적 ν”Όλ“œλ°± 루프λ₯Ό κ°€μ •ν•˜μ§€λ§Œ, 정보 이둠적으둜 μ™ΈλΆ€ ꡐ정 μ‹ ν˜Έ($\alpha_t$)κ°€ 0으둜 μˆ˜λ ΄ν•˜λŠ” νμ‡„ν˜• λ£¨ν”„λŠ” μ§€λŠ₯ 폭발이 μ•„λ‹Œ 퇴행적 고정점(Degenerate fixed point)으둜 μˆ˜λ ΄ν•œλ‹€λŠ” 것이 μˆ˜ν•™μ μœΌλ‘œ 증λͺ…λ˜μ—ˆλ‹€ [36, 39, 40]. - **λ³΄μƒμ˜ μ–‘λ©΄μ„±:** 자기 보상(Self-rewarding) λ£¨ν”„λŠ” ν™•μž₯성이 λ›°μ–΄λ‚˜μ§€λ§Œ, 보상 ν•¨μˆ˜ 자체의 ν—ˆμ μ„ 찌λ₯΄λŠ” '보상 ν•΄ν‚Ή(Reward Hacking)'에 μ·¨μ•½ν•˜λ©° μ΄λŠ” μ •λ ¬ μ‹€νŒ¨(Alignment failure)둜 이어진닀 [41, 42]. ## πŸ› οΈ 적용 사둀 (Applied in summary) - **Darwin GΓΆdel Machine (DGM):** μ½”λ”© μ—μ΄μ „νŠΈκ°€ μžμ‹ μ˜ μ½”λ“œ μ €μž₯μ†Œλ₯Ό μˆ˜μ •ν•˜κ³ , μ‹€ν–‰ κ²°κ³Ό 둜그λ₯Ό ν”Όλ“œλ°±μœΌλ‘œ λ°›μ•„ μ§„ν™”ν•˜λ©°, 성곡적인 변이λ₯Ό μ•„μΉ΄μ΄λΈŒμ— μ €μž₯ν•˜λŠ” μž¬κ·€μ  루프λ₯Ό κ΅¬ν˜„ν•¨ [43-46]. (GitHub: `https://github.com/jennyzzt/dgm`) - **Cato Vulnerability Protection Agent:** CVE 곡개 ν›„ μ—μ΄μ „νŠΈκ°€ 보호 κ·œμΉ™μ„ μƒμ„±ν•˜κ³ , μ‹€μ œ νŠΈλž˜ν”½ 데이터λ₯Ό ν†΅ν•œ 검증 결과와 λ³΄μ•ˆ μ—°κ΅¬μžμ˜ 리뷰λ₯Ό ν”Όλ“œλ°± λ£¨ν”„λ‘œ μ‚¬μš©ν•˜μ—¬ 45λΆ„ 이내에 μ‹œκ·Έλ‹ˆμ²˜λ₯Ό μ •μ œν•¨ [27, 47]. - **NVIDIA Hermes Agent:** μ‚¬μš©μžμ™€μ˜ λŒ€ν™” ν”Όλ“œλ°±μ„ 톡해 μƒˆλ‘œμš΄ λ³΄κ³ μ„œ ν˜•μ‹μ„ μŠ΅λ“ν•˜κ³ , 이λ₯Ό `SKILL.md` 파일둜 κΈ°λ‘ν•˜μ—¬ 영ꡬ적인 λŠ₯λ ₯으둜 ν†΅ν•©ν•˜λŠ” ν•™μŠ΅ 루프λ₯Ό μ‚¬μš©ν•¨ [48-50]. (경둜: `nemoclaw-community/examples/personal-community-sentiment-triage`) - **ASI-Evolve (SJTU):** 'ν•™μŠ΅-섀계-μ‹€ν—˜-뢄석'의 κ΅¬μ‘°ν™”λœ 루프λ₯Ό 톡해 연ꡬ μ—μ΄μ „νŠΈκ°€ μƒˆλ‘œμš΄ 신경망 ꡬ쑰(105개의 SOTA μ–΄ν…μ…˜ λ©”μ»€λ‹ˆμ¦˜ λ“±)λ₯Ό 자율적으둜 λ°œκ²¬ν•¨ [51]. - **Voyager:** Minecraft λ‚΄μ—μ„œμ˜ μ‹œν–‰μ°©μ˜€ ν”Όλ“œλ°±μ„ 톡해 μ½”λ“œλ₯Ό μˆ˜μ •ν•˜κ³  성곡적인 ν”„λ‘œκ·Έλž¨μ„ 기술 λΌμ΄λΈŒλŸ¬λ¦¬μ— μ €μž₯ν•˜μ—¬ μ§€μ†μ μœΌλ‘œ 진화함 [52, 53]. - **SEA-TS:** μ‹œκ³„μ—΄ 예츑 μ•Œκ³ λ¦¬μ¦˜ 생성을 μœ„ν•΄ μ½”λ“œ 리뷰와 ν”„λ‘¬ν”„νŠΈ μ •μ œ 루프λ₯Ό κ²°ν•©ν•˜μ—¬ 인간 섀계 기쀀을 λŠ₯κ°€ν•˜λŠ” λͺ¨λΈμ„ λ„μΆœν•¨ [54]. ## βœ… 검증 μƒνƒœ 및 신뒰도 - **μƒνƒœ:** draft - **검증 단계:** conceptual (λ‹€μ–‘ν•œ μ‹œμŠ€ν…œμ—μ„œ κ΅¬ν˜„λ˜μ—ˆμœΌλ‚˜, 이둠적 ν•œκ³„μ™€ μœ„ν—˜μ„±μ— λŒ€ν•œ λ…Όμ˜κ°€ μ§„ν–‰ μ€‘μž„) - **좜처 신뒰도:** B (Official Documentation / Primary Source via NotebookLM) - **쀑볡 검사 κ²°κ³Ό:** μ‹ κ·œ 생성 (New discovery) ## πŸ“ λ³€κ²½ 이λ ₯ (Change history) - 2026-06-12: Initial draft generated via Datacollector_MAC P-Reinforce engine. (Source: arXiv surveys, Sakana AI RSI Lab, NVIDIA Technical Blog, MDPI HLE research)