Files
2nd/10_Wiki/Topic_Agent/Rollback Mechanism.md

6.3 KiB

id, title, category, status, verification_status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, created_at, updated_at, review_reason, merge_history, tags, raw_sources, applied_in, github_commit
id title category status verification_status canonical_id aliases duplicate_of source_trust_level confidence_score created_at updated_at review_reason merge_history tags raw_sources applied_in github_commit
rollback-mechanism Rollback Mechanism 10_Wiki/Topics draft conceptual
복구 메커니즘
회기 프로토콜
B 0.85 2026-06-12 2026-06-12
research
self envolving
AI safety
resilience
NotebookLM Synthesis
Darwin Gödel Machine
MOSS
Autogenesis System (AGS)
NVIDIA NemoClaw
Hermes Agent
Cato Multi-Modal Vulnerability Protection Agent

Rollback Mechanism

🎯 한 줄 통찰 (One-line insight)

자가 진화형 AI 시스템에서 발생할 수 있는 성능 퇴행, 안전성 표류(Drift) 또는 이상 행동을 감지했을 때 시스템을 검증된 최후의 안정 상태로 즉시 복원하는 핵심 안전 장치이자 복원력(Resilience) 메커니즘이다 [1-3].

🧠 핵심 개념 (Core concepts)

  • 버전 관리 및 체크포인트 (Checkpointing): 에이전트의 상태(모델 가중치, 메모리, 도구 모음)를 버전별로 관리하고, 알려진 "안전한" 버전을 명확히 태깅하여 저장한다 [1, 4].
  • 실시간 모니터링 및 상태 추적: 시스템의 안전 상태(예: KL 발산 기반의 표류 지표) 또는 에이전트의 행동을 실시간으로 감시하여 임계값 초과 여부를 판단한다 [3, 5].
  • 자동화된 복원 프로토콜: 성능 저하나 이상 징후가 감지되면 인간의 개입 없이(또는 최소한의 개입으로) 즉시 에이전트의 스캐폴드를 이전의 안정 상태로 복구한다 [2, 6].
  • 불변의 감사 추적 (Immutable Audit Trail): 모든 자가 수정 사항(Trigger, 변경 내용, 결과)을 로깅하여 복구 시점의 근거를 마련하고 진화 과정을 감사할 수 있게 한다 [2, 7].

🧩 추출된 패턴 (Extracted patterns)

  • 상태 보존-재구축-복원 (Snapshot-Rebuild-Restore): 프로덕션 환경에서 새로운 코드가 배포될 때 학습된 스킬과 메모리를 유지하기 위해 스냅샷을 찍고 샌드박스를 재구축한 뒤 데이터를 재수화(Rehydrate)하는 루프이다 [8].
  • 상태 검증 기반의 롤백 (Health-probe-gated Rollback): 소스 수준의 수정을 수행한 후, 헬스 프로브(Health probe)를 통해 성공 여부를 검증하고 실패 시 자동으로 이전 컨테이너 상태로 복귀한다 [6].
  • 엔트로피 임계값 기반 회귀 (Entropy-triggered Rollback): 시스템의 무질서도(Entropy)나 안전성 표류가 한계를 넘어서면 "열역학적 냉각(Thermodynamic Cooling)"의 일환으로 마지막 체크포인트로 회귀한다 [3].

📖 세부 내용 (Details)

  • 배포 요구 사항: 자가 진화형 에이전트의 신뢰할 수 있는 배포를 위해 "원클릭 롤백 메커니즘"은 필수적인 규제 준수 체크리스트 항목으로 간주된다 [1]. 이 메커니즘은 정기적인 테스트를 통해 작동성을 보장받아야 한다 [1].
  • 트리거 조건:
    • 성능 퇴행 (Performance Regressions): 자가 수정 후 벤치마크 점수나 작업 성공률이 유의미하게 하락한 경우 [2, 9].
    • 안전성 표류 및 미진화 (Misevolution): 에이전트가 이전에 거부했던 유해한 지시를 수용하거나, 안전 정렬(Alignment)이 파괴되는 현상이 감지될 때 [3, 10].
    • 이상 행동: 리소스의 비정상적 사용, 예기치 않은 데이터 유출 시도 등이 실시간 런타임 모니터링에 포착될 때 [5, 11].
  • 계층적 접근: 롤백은 단순한 프롬프트 최적화 취소부터 시작하여 도구 세트의 변경, 나아가 에이전트의 스캐폴드 코드 자체를 이전 버전으로 되돌리는 포괄적인 수준까지 포함한다 [2, 12].
  • 복구 후 검증: 롤백이 완료된 후 시스템이 정상적으로 작동하는지 확인하기 위해 '골든 데이터셋(Golden dataset)'을 활용한 재검증 과정을 거치기도 한다 [1].

⚖️ 모순 및 업데이트 (Contradictions & updates)

  • 완전 자동화 vs 인간 승인: 일부 시스템(MOSS)은 자동화된 헬스 프로브를 통한 롤백을 지향하는 반면, 고위험 작업이나 구조적 변경의 경우 인간의 승인을 거쳐 롤백 여부를 결정해야 한다는 신중론이 공존한다 [6, 13].
  • 데이터 삭제 범위: 롤백 시 수정된 코드나 모델 가중치만 되돌릴 것인지, 아니면 그 과정에서 쌓인 오염된 메모리(Poisoned memory)까지 소거할 것인지에 대한 설계적 차이가 존재한다 [14, 15].

🛠️ 적용 사례 (Applied in summary)

  • Darwin Gödel Machine (DGM): 에이전트의 코드 수정을 버전 관리 데이터베이스에 로깅하고, 이상 행동 감지 시 즉시 이전의 안정된 상태로 복원하는 프로토콜을 사용한다 [2].
  • MOSS (Self-Evolution through Source-Level Rewriting): 에이전트 소스 코드 수정 후 임시 환경에서 검증을 거치며, 헬스 프로브를 기반으로 한 롤백 메커니즘을 프로덕션 환경에 적용했다 [6].
  • Autogenesis System (AGS): '자가 진화 프로토콜 레이어(SEPL)'를 통해 개선 사항을 제안, 평가, 커밋하며 감사 가능한 이력(Lineage)과 롤백 기능을 제공한다 [16].
  • NVIDIA NemoClaw / Hermes Agent: 자가 학습된 스킬이 파일시스템(SKILL.md)에 기록되며, 배포 시 스냅샷과 복구 스크립트(restore.sh)를 통해 상태를 보존하거나 이전 상태로 복구할 수 있는 수동/스크립트 기반 메커니즘을 시연했다 [8, 17].
  • Cato Networks 보안 에이전트: 사고 대응 계획의 일환으로 안전 실패 시 즉각적인 셧다운 및 롤백 단계를 문서화하고 실행한다 [18].

검증 상태 및 신뢰도

  • 상태: draft
  • 검증 단계: conceptual (DGM, MOSS 등 실제 프레임워크 내 구현 사례가 다수 발견됨)
  • 출처 신뢰도: B (연구 논문 및 기술 블로그 기반의 NotebookLM 합성 결과)
  • 중복 검사 결과: 신규 생성 (New discovery)

📝 변경 이력 (Change history)

  • 2026-06-12: Initial draft generated via Datacollector_MAC P-Reinforce engine based on provided sources.