2nd/10_Wiki/Topic_Agent/Lifelong Learning.md

---
id: lifelong-learning
title: "Lifelong Learning"
category: "10_Wiki/Topics"
status: "draft"
verification_status: "conceptual"
canonical_id: ""
aliases: ["Continual Learning", "Incremental Learning"]
duplicate_of: ""
source_trust_level: "B"
confidence_score: 0.85
created_at: 2026-06-12
updated_at: 2026-06-12
review_reason: ""
merge_history: []
tags: ["research", "self envolving"]
raw_sources: ["NotebookLM Synthesis"]
applied_in: ["https://github.com/ag2ai/Live-Evo", "https://github.com/Edaizi/EvolveR", "LifelongAgentBench"]
github_commit: ""
---

# [[Lifelong Learning]]

## 🎯 한 줄 통찰 (One-line insight)
이전에 습득한 지식과 능력을 유지하면서(Stability) 새로운 작업과 환경에 노출될 때 지속적이고 적응적으로 학습하는 AI 모델의 핵심 능력이다 [1].

## 🧠 핵심 개념 (Core concepts)
- **안정성-가소성 딜레마 (Stability-Plasticity Dilemma):** 기존 지식을 보존하는 안정성과 새로운 지식을 수용하는 가소성 사이에서 균형을 맞추는 핵심 과제이다 [1].
- **파괴적 망각 (Catastrophic Forgetting):** 새로운 정보를 학습하는 과정이 이전에 학습된 정보를 지우거나 훼손하는 현상이다 [1-3].
- **지식 유지 및 전이 (Retention & Transfer):** 과거의 지식을 유지하면서 이를 새로운 또는 순차적인 작업에 적용하는 능력이다 [4, 5].
- **순차적 작업 설정 (Sequential Task Setting):** 동적인 환경에서 연속적으로 발생하는 작업을 처리하는 학습 환경을 의미한다 [1, 6].

## 🧩 추출된 패턴 (Extracted patterns)
- **학습 시점 메모리 활용:** 평생 학습(Lifelong Learning)에서의 메모리 메커니즘(경험 재생 버퍼 등)은 주로 경사 하강법을 통한 매개변수 최적화를 위해 **학습 시점(Training-time)**에 도구로 사용된다 [1].
- **수동적 지식 습득:** 전통적인 평생 학습은 주로 외부에서 제공되는 작업 시퀀스를 통해 수동적으로 지식을 습득하는 경향이 있다 [1].
- **원칙 중심 경험 내재화:** 단순한 인스턴스 수준의 기록보다 원칙 수준(Principle-level)으로 경험을 추상화하여 저장하는 것이 다중 반복 학습 시 성능 붕괴를 막는 데 유리하다 [7].

## 📖 세부 내용 (Details)
- **정의 및 범위:** 평생 학습은 지속적 학습(Continual Learning) 또는 점진적 학습(Incremental Learning)으로도 불리며, 동적이고 복잡한 환경에서 AI 모델이 운영되기 위한 필수적인 패러다임이다 [1].
- **자가 진화 에이전트(Self-evolving Agents)와의 관계:**
    - 평생 학습은 주로 모델의 매개변수 업데이트에 집중하는 반면, 자가 진화 에이전트는 도구 습득, 아키텍처 재구성, 환경 탐색을 포함하는 시스템 전체의 진화를 목표로 한다 [1, 8].
    - 자가 진화 에이전트는 평생 학습의 순차적 작업 설정을 공유하지만, 실행 시점(Runtime)의 컨텍스트(프롬프트, 작업 메모리 등)를 활용하여 매개변수 업데이트 없이도 즉각적으로 행동을 조정한다는 점에서 차이가 있다 [1].
- **구현 메커니즘:**
    - **경험 재생(Experience Replay):** 과거의 데이터를 보관했다가 새로운 학습 시 함께 사용하여 망각을 방지한다 [1].
    - **매개변수 효율적 미세 조정(PEFT):** 특정 모델 부분만 업데이트하여 기존 지식의 훼손을 최소화한다 [3].
    - **계층적 메모리:** 전략적, 절차적, 도구 사용 메모리로 경험을 조직화하여 장기적인 역량을 구축한다 [9].
- **평가 및 벤치마크:**
    - **Long-horizon 평가:** 장기적인 학습 궤적에서 지식의 축적과 퇴보를 측정하는 것이 중요하며, 에피소드 간 상태가 유지되는 설정이 필요하다 [10, 11].
    - **주요 지표:** 망각률(FGT), 역전이(BWT, 새로운 학습이 과거 작업 성능을 향상시키는 정도) 등이 사용된다 [2, 12].

## ⚖️ 모순 및 업데이트 (Contradictions & updates)
- **학습 주도권의 변화:** 과거에는 외부에서 주어진 데이터를 학습하는 '문제 설정 뷰(Problem-setting view)'로 간주되었으나, 최신 연구에서는 에이전트가 스스로 탐색하고 반찰하는 '해결 패러다임 뷰(Solution-paradigm view)'로 확장되고 있다 [13, 14].
- **경험 내재화의 위험성:** 다중 반복 학습 시 온폴리시(On-policy) 컨텍스트 증류를 사용할 경우 개선이 아닌 '점진적 역량 붕괴(Progressive capability collapse)'가 발생할 수 있다는 사실이 발견되었다 [7].

## 🛠️ 적용 사례 (Applied in summary)
- **DarwinTOD:** 태스크 지향 대화 시스템에서 인간의 개입 없이 지속적으로 전략을 최적화하기 위해 진화 연산과 평생 학습을 결합하였다 [15].
- **LifelongAgentBench:** 데이터베이스(DB), 운영체제(OS), 지식 그래프(KG) 도메인에 걸쳐 상호 의존적인 작업 시퀀스를 구성하여 에이전트의 평생 학습 능력을 평가하는 벤치마크로 활용된다 [16, 17].
- **Live-Evo:** 지속적인 피드백과 분포 변화(Distribution shift)가 발생하는 라이브 데이터 스트림에서 에이전트 메모리를 온라인으로 진화시키는 시스템이다 [18].
- **MUSE:** 계층적 메모리 모듈을 통해 실행-반찰-기억 루프를 수행하며 장기 작업에서 '업무 중 학습(Learning on the job)'을 구현하였다 [9, 19].

## ✅ 검증 상태 및 신뢰도
- **상태:** draft
- **검증 단계:** conceptual (실제 적용 사례 발견 시 applied/validated로 승격 가능)
- **출처 신뢰도:** B (Official Documentation / Primary Source via NotebookLM)
- **중복 검사 결과:** 신규 생성 (New discovery)

## 📝 변경 이력 (Change history)
- 2026-06-12: Initial draft generated via Datacollector_MAC P-Reinforce engine.