Files
2nd/10_Wiki/Topic_Agent/Lifelong Learning.md
T

5.9 KiB

id, title, category, status, verification_status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, created_at, updated_at, review_reason, merge_history, tags, raw_sources, applied_in, github_commit
id title category status verification_status canonical_id aliases duplicate_of source_trust_level confidence_score created_at updated_at review_reason merge_history tags raw_sources applied_in github_commit
lifelong-learning Lifelong Learning 10_Wiki/Topics draft conceptual
Continual Learning
Incremental Learning
B 0.85 2026-06-12 2026-06-12
research
self envolving
NotebookLM Synthesis
https://github.com/ag2ai/Live-Evo
https://github.com/Edaizi/EvolveR
LifelongAgentBench

Lifelong Learning

🎯 한 줄 통찰 (One-line insight)

이전에 습득한 지식과 능력을 유지하면서(Stability) 새로운 작업과 환경에 노출될 때 지속적이고 적응적으로 학습하는 AI 모델의 핵심 능력이다 [1].

🧠 핵심 개념 (Core concepts)

  • 안정성-가소성 딜레마 (Stability-Plasticity Dilemma): 기존 지식을 보존하는 안정성과 새로운 지식을 수용하는 가소성 사이에서 균형을 맞추는 핵심 과제이다 [1].
  • 파괴적 망각 (Catastrophic Forgetting): 새로운 정보를 학습하는 과정이 이전에 학습된 정보를 지우거나 훼손하는 현상이다 [1-3].
  • 지식 유지 및 전이 (Retention & Transfer): 과거의 지식을 유지하면서 이를 새로운 또는 순차적인 작업에 적용하는 능력이다 [4, 5].
  • 순차적 작업 설정 (Sequential Task Setting): 동적인 환경에서 연속적으로 발생하는 작업을 처리하는 학습 환경을 의미한다 [1, 6].

🧩 추출된 패턴 (Extracted patterns)

  • 학습 시점 메모리 활용: 평생 학습(Lifelong Learning)에서의 메모리 메커니즘(경험 재생 버퍼 등)은 주로 경사 하강법을 통한 매개변수 최적화를 위해 **학습 시점(Training-time)**에 도구로 사용된다 [1].
  • 수동적 지식 습득: 전통적인 평생 학습은 주로 외부에서 제공되는 작업 시퀀스를 통해 수동적으로 지식을 습득하는 경향이 있다 [1].
  • 원칙 중심 경험 내재화: 단순한 인스턴스 수준의 기록보다 원칙 수준(Principle-level)으로 경험을 추상화하여 저장하는 것이 다중 반복 학습 시 성능 붕괴를 막는 데 유리하다 [7].

📖 세부 내용 (Details)

  • 정의 및 범위: 평생 학습은 지속적 학습(Continual Learning) 또는 점진적 학습(Incremental Learning)으로도 불리며, 동적이고 복잡한 환경에서 AI 모델이 운영되기 위한 필수적인 패러다임이다 [1].
  • 자가 진화 에이전트(Self-evolving Agents)와의 관계:
    • 평생 학습은 주로 모델의 매개변수 업데이트에 집중하는 반면, 자가 진화 에이전트는 도구 습득, 아키텍처 재구성, 환경 탐색을 포함하는 시스템 전체의 진화를 목표로 한다 [1, 8].
    • 자가 진화 에이전트는 평생 학습의 순차적 작업 설정을 공유하지만, 실행 시점(Runtime)의 컨텍스트(프롬프트, 작업 메모리 등)를 활용하여 매개변수 업데이트 없이도 즉각적으로 행동을 조정한다는 점에서 차이가 있다 [1].
  • 구현 메커니즘:
    • 경험 재생(Experience Replay): 과거의 데이터를 보관했다가 새로운 학습 시 함께 사용하여 망각을 방지한다 [1].
    • 매개변수 효율적 미세 조정(PEFT): 특정 모델 부분만 업데이트하여 기존 지식의 훼손을 최소화한다 [3].
    • 계층적 메모리: 전략적, 절차적, 도구 사용 메모리로 경험을 조직화하여 장기적인 역량을 구축한다 [9].
  • 평가 및 벤치마크:
    • Long-horizon 평가: 장기적인 학습 궤적에서 지식의 축적과 퇴보를 측정하는 것이 중요하며, 에피소드 간 상태가 유지되는 설정이 필요하다 [10, 11].
    • 주요 지표: 망각률(FGT), 역전이(BWT, 새로운 학습이 과거 작업 성능을 향상시키는 정도) 등이 사용된다 [2, 12].

⚖️ 모순 및 업데이트 (Contradictions & updates)

  • 학습 주도권의 변화: 과거에는 외부에서 주어진 데이터를 학습하는 '문제 설정 뷰(Problem-setting view)'로 간주되었으나, 최신 연구에서는 에이전트가 스스로 탐색하고 반찰하는 '해결 패러다임 뷰(Solution-paradigm view)'로 확장되고 있다 [13, 14].
  • 경험 내재화의 위험성: 다중 반복 학습 시 온폴리시(On-policy) 컨텍스트 증류를 사용할 경우 개선이 아닌 '점진적 역량 붕괴(Progressive capability collapse)'가 발생할 수 있다는 사실이 발견되었다 [7].

🛠️ 적용 사례 (Applied in summary)

  • DarwinTOD: 태스크 지향 대화 시스템에서 인간의 개입 없이 지속적으로 전략을 최적화하기 위해 진화 연산과 평생 학습을 결합하였다 [15].
  • LifelongAgentBench: 데이터베이스(DB), 운영체제(OS), 지식 그래프(KG) 도메인에 걸쳐 상호 의존적인 작업 시퀀스를 구성하여 에이전트의 평생 학습 능력을 평가하는 벤치마크로 활용된다 [16, 17].
  • Live-Evo: 지속적인 피드백과 분포 변화(Distribution shift)가 발생하는 라이브 데이터 스트림에서 에이전트 메모리를 온라인으로 진화시키는 시스템이다 [18].
  • MUSE: 계층적 메모리 모듈을 통해 실행-반찰-기억 루프를 수행하며 장기 작업에서 '업무 중 학습(Learning on the job)'을 구현하였다 [9, 19].

검증 상태 및 신뢰도

  • 상태: draft
  • 검증 단계: conceptual (실제 적용 사례 발견 시 applied/validated로 승격 가능)
  • 출처 신뢰도: B (Official Documentation / Primary Source via NotebookLM)
  • 중복 검사 결과: 신규 생성 (New discovery)

📝 변경 이력 (Change history)

  • 2026-06-12: Initial draft generated via Datacollector_MAC P-Reinforce engine.