Files
2nd/10_Wiki/Topics/Topic_Agent/Recursive Self-Improvement (RSI).md
2026-06-12 22:12:56 +09:00

8.7 KiB

id, title, category, status, verification_status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, created_at, updated_at, review_reason, merge_history, tags, raw_sources, applied_in, github_commit
id title category status verification_status canonical_id aliases duplicate_of source_trust_level confidence_score created_at updated_at review_reason merge_history tags raw_sources applied_in github_commit
recursive-self-improvement-(rsi) Recursive Self-Improvement (RSI) 10_Wiki/Topics draft conceptual
재귀적 자기 개선
B 0.90 2026-06-12 2026-06-12
research
self envolving
RSI
AGI
NotebookLM Synthesis
https://github.com/CharlesQ9/Self-Evolving-Agents
https://github.com/jennyzzt/dgm
https://github.com/SakanaAI/ShinkaEvolve
https://github.com/DunLi-Tsinghua/MetaAI-Mini

Recursive Self-Improvement (RSI)

🎯 한 줄 통찰 (One-line insight)

AI가 자신의 소스 코드와 학습 알고리즘을 스스로 수정하여 인간의 개입 없이 지능을 지수적으로 증폭시키는 자기 주도적 진화 루프이다 [1, 2].

🧠 핵심 개념 (Core concepts)

  1. Seed AI (초기 개선기): 재귀적 자기 개선을 시작하는 데 필요한 초기 기능(계획, 코딩, 컴파일, 테스트)을 갖춘 인간 설계 기반의 시스템이다 [3, 4].
  2. Recursive Feedback Loop: 성능 평가(Assessment), 자기 수정(Self-modification), 검증 및 통합(Validation & Integration)의 단계를 거쳐 더 똑똑해진 시스템이 다시 자신을 개선하는 순환 구조이다 [2, 5].
  3. Recursive Continuity (재귀적 지속성): 개선된 자손(Descendants)이 여전히 코드를 수정하고 개선할 수 있는 능력을 보유하여 다음 세대의 부모가 될 수 있는 속성이다 [6, 7].
  4. Intelligence Explosion (지능 폭발): 자기 개선의 각 단계가 다음 개선의 효율성을 높여 지능 성장이 인간의 이해 범위를 넘어서는 가속화 현상이다 [1, 8].

🧩 추출된 패턴 (Extracted patterns)

  • Human Zero-to-One vs. AI One-to-N: 인간은 초기 씨앗 모델, 도구, 제약 조건 및 평가 환경을 구축(0 to 1)하고, AI는 이를 바탕으로 스스로 변이를 생성하고 확장(1 to N)한다 [9-11].
  • Generate-Verify-Retain: 부모 모델이 로그를 분석하여 수정안을 제안 및 구현하고, 벤치마크 테스트를 통해 성능 향상이 증명된 자손만 아카이브에 저장하여 다음 세대의 부모로 삼는다 [12-14].
  • Noise-to-Meaning RSI (N2M-RSI): 자기 프롬프팅 시스템에서 정보 통합 임계값(\Gamma)을 넘어서면 의미론적 압축 이득이 발생하여 지능이 한계 없이 성장할 수 있다는 수학적 모델이다 [15, 16].

📖 세부 내용 (Details)

  • 운용 기준 (Operational Criteria): RSI 시스템으로 인정받기 위해서는 ① 조사 가능한 타겟 시스템, ② AI 기반의 메타 수준 수정기, ③ 피드백 기반 선택 기제, ④ 재귀적 지속성이라는 4가지 조건을 충족해야 한다 [6, 17].
  • 수정 대상 (Evolutionary Loci): 단순히 파라미터 튜닝에 그치지 않고, 코드 수준의 에이전트 스캐폴드(Scaffold), 도구 사용 인터페이스, 컨텍스트 관리 워크플로우, 프롬프트 정책 등을 직접 수정한다 [7, 18, 19].
  • 이론적 한계와 모델 붕괴: 외부 신호(\alpha_t)가 고갈된 순수 폐쇄 루프에서의 자기 학습은 엔트로피 감소와 분산 증폭을 유발하여 시스템이 다양성을 잃고 퇴화하는 '모델 붕괴(Model Collapse)'에 빠질 위험이 크다 [20-22].
  • 신경 기호적 통합 (Neurosymbolic Integration): 통계적 학습의 한계를 극복하기 위해 물리적 법칙이나 논리적 제약을 강제하는 기호적 모델(Symbolic Model)을 결합하여 자가 파괴적인 진화를 방지한다 [20, 23, 24].

⚖️ 모순 및 업데이트 (Contradictions & updates)

  • 자기 개선 트릴레마 (Self-evolution Trilemma): 지속적인 자기 진화, 완전한 격리(Isolation), 안전 불변성(Safety Invariance)의 세 가지를 동시에 달성하는 것은 불가능하다는 이론적 주장이 제기되었다 [25, 26].
  • 최적화와 안전의 충돌: 시스템이 지능 최적화에만 집중할 경우 기존에 설정된 인간 가치 정렬(Safety Alignment)이 '데이터 오염'과 '재귀의 저주'로 인해 희석되거나 소멸될 수 있다 [27-29].

🛠️ 적용 사례 (Applied in summary)

  • Darwin Gödel Machine (DGM): Sakana AI가 개발한 시스템으로, 코딩 에이전트가 자신의 코드베이스를 스스로 수정하며 80회 반복 결과 SWE-bench 성능을 20%에서 50%로 향상시켰다 [30-32].
  • STOP (Self-Taught Optimiser): 고정된 LLM 위에서 스캐폴딩 프로그램이 재귀적으로 자신을 최적화하여 ML 훈련 스크립트 등을 개선하는 프레임워크이다 [33-35].
  • MetaAI-Mini: HumanEval 데이터를 기반으로 모델이 스스로를 개선하는 과정을 수업이나 연구 목적으로 재현할 수 있는 경량화 프로토콜이다 [36, 37].
  • AlphaEvolve: Google DeepMind의 시스템으로, Gemini 모델과 진화 연산을 결합하여 스스로의 알고리즘을 조사하고 새로운 버전을 생성한다 [38, 39].

검증 상태 및 신뢰도

  • 상태: draft
  • 검증 단계: conceptual (DGM 등의 연구를 통해 부분적 실증 단계 진입) [40, 41]
  • 출처 신뢰도: B (ArXiv 및 주요 AI 학회 워크숍 소스 기반) [42, 43]
  • 중복 검사 결과: 신규 생성 (New discovery)

상위/유사 개념

[관계 유형 A (아키텍처/기반 기술)]

  • Self-Evolving Agents
    • 연결 이유: RSI는 에이전트가 환경에 적응하는 것을 넘어 자신의 설계 자체를 바꾸는 강력한 형태의 진화이다 [44, 45].
    • 이 개념을 통해 더 깊게 이해할 수 있는 부분: 에이전트의 내부 구성 요소(모델, 메모리, 도구)가 어떻게 진화의 대상이 되는지.
  • Gödel Machine
    • 연결 이유: RSI의 이론적 기원으로, 유틸리티 증가가 증명될 때만 자신을 재작성하는 자기 참조적 문제 해결기이다 [46, 47].
    • 이 개념을 통해 더 깊게 이해할 수 있는 부분: 증명 가능한 자기 수정의 수학적 엄밀성.

[관계 유형 B (구현/활용 도구)]

  • Model Context Protocol (MCP)
    • 연결 이유: RSI 에이전트가 도구와 지식 베이스를 체계적으로 확장하고 관리하기 위한 표준 인터페이스로 활용된다 [48, 49].
    • 이 개념을 통해 더 깊게 이해할 수 있는 부분: 에이전트가 새로운 기능을 통합하는 물리적 메커니즘.

심층 후속 질문 (Deeper Research Questions)

  • RSI 프로세스를 시작하기 위해 필요한 에이전트의 최소 지능 임계값(Threshold)은 무엇인가? [50]
  • 소스 코드 크기와 지능 사이에는 어떤 상관관계가 있으며, 진화 과정에서 코드 비대화(Code Bloating)를 어떻게 방지할 것인가? [51, 52]
  • 외부 피드백이 점진적으로 사라지는 상황(\alpha_t \to 0)에서 지능의 퇴화를 막는 '기호적 닻(Symbolic Anchor)'의 최소 요건은 무엇인가? [53, 54]
  • RSI 시스템에서 목표 표류(Goal Drift)를 방지하면서도 목표의 유연한 진화를 허용하는 정렬(Alignment) 방법은 무엇인가? [55, 56]
  • RSI의 속도(Takeoff Speed)가 하드 테이크오프(Hard Takeoff)가 될지 소프트 테이크오프가 될지를 결정하는 주요 변수는 무엇인가? [57]

실무 적용 맥락 (Practical Application Contexts)

  • Implementation: Instrument First, Then Evolve 패턴에 따라 모든 에이전트 실행 로그(프롬프트, 도구 호출, 결과)를 먼저 정밀하게 기록해야 한다 [58, 59].
  • System Design: 도메인 작업 에이전트(Task Agent)와 개선 제안 에이전트(Meta-Agent)를 엄격히 분리하여 안전 제약 조건이 직접 덮어씌워지는 것을 방지한다 [60, 61].
  • Operation / Maintenance: 모든 자기 수정 이력을 버전 관리하고, 비정상 동작 감지 시 즉시 안정 상태로 복구하는 롤백(Rollback) 메커니즘을 구축한다 [62, 63].
  • Learning Path: 단순한 자기 성찰(Self-reflection)에서 시작하여, 로그 기반 프롬프트 최적화, 자동 도구 발견, 그리고 최종적으로 소스 코드 수준의 재작성으로 단계를 높인다 [64].

인접 주변 주제 (Adjacent Topics)

  • Artificial Super Intelligence (ASI)
    • 확장 방향: RSI가 궁극적으로 도달하고자 하는 지능의 최종 형태와 그 위험성 [65, 66].
  • Autopoiesis
    • 확장 방향: 생물학적 자기 생산 개념을 통한 시스템적 자율성 이해 [67, 68].

📝 변경 이력 (Change history)

  • 2026-06-12: Initial draft generated via Datacollector_MAC P-Reinforce engine.