이전에 습득한 지식과 능력을 유지하면서(Stability) 새로운 작업과 환경에 노출될 때 지속적이고 적응적으로 학습하는 AI 모델의 핵심 능력이다 [1].
🧠 핵심 개념 (Core concepts)
안정성-가소성 딜레마 (Stability-Plasticity Dilemma): 기존 지식을 보존하는 안정성과 새로운 지식을 수용하는 가소성 사이에서 균형을 맞추는 핵심 과제이다 [1].
파괴적 망각 (Catastrophic Forgetting): 새로운 정보를 학습하는 과정이 이전에 학습된 정보를 지우거나 훼손하는 현상이다 [1-3].
지식 유지 및 전이 (Retention & Transfer): 과거의 지식을 유지하면서 이를 새로운 또는 순차적인 작업에 적용하는 능력이다 [4, 5].
순차적 작업 설정 (Sequential Task Setting): 동적인 환경에서 연속적으로 발생하는 작업을 처리하는 학습 환경을 의미한다 [1, 6].
🧩 추출된 패턴 (Extracted patterns)
학습 시점 메모리 활용: 평생 학습(Lifelong Learning)에서의 메모리 메커니즘(경험 재생 버퍼 등)은 주로 경사 하강법을 통한 매개변수 최적화를 위해 **학습 시점(Training-time)**에 도구로 사용된다 [1].
수동적 지식 습득: 전통적인 평생 학습은 주로 외부에서 제공되는 작업 시퀀스를 통해 수동적으로 지식을 습득하는 경향이 있다 [1].
원칙 중심 경험 내재화: 단순한 인스턴스 수준의 기록보다 원칙 수준(Principle-level)으로 경험을 추상화하여 저장하는 것이 다중 반복 학습 시 성능 붕괴를 막는 데 유리하다 [7].
📖 세부 내용 (Details)
정의 및 범위: 평생 학습은 지속적 학습(Continual Learning) 또는 점진적 학습(Incremental Learning)으로도 불리며, 동적이고 복잡한 환경에서 AI 모델이 운영되기 위한 필수적인 패러다임이다 [1].
자가 진화 에이전트(Self-evolving Agents)와의 관계:
평생 학습은 주로 모델의 매개변수 업데이트에 집중하는 반면, 자가 진화 에이전트는 도구 습득, 아키텍처 재구성, 환경 탐색을 포함하는 시스템 전체의 진화를 목표로 한다 [1, 8].
자가 진화 에이전트는 평생 학습의 순차적 작업 설정을 공유하지만, 실행 시점(Runtime)의 컨텍스트(프롬프트, 작업 메모리 등)를 활용하여 매개변수 업데이트 없이도 즉각적으로 행동을 조정한다는 점에서 차이가 있다 [1].
구현 메커니즘:
경험 재생(Experience Replay): 과거의 데이터를 보관했다가 새로운 학습 시 함께 사용하여 망각을 방지한다 [1].
매개변수 효율적 미세 조정(PEFT): 특정 모델 부분만 업데이트하여 기존 지식의 훼손을 최소화한다 [3].
계층적 메모리: 전략적, 절차적, 도구 사용 메모리로 경험을 조직화하여 장기적인 역량을 구축한다 [9].
평가 및 벤치마크:
Long-horizon 평가: 장기적인 학습 궤적에서 지식의 축적과 퇴보를 측정하는 것이 중요하며, 에피소드 간 상태가 유지되는 설정이 필요하다 [10, 11].
주요 지표: 망각률(FGT), 역전이(BWT, 새로운 학습이 과거 작업 성능을 향상시키는 정도) 등이 사용된다 [2, 12].
⚖️ 모순 및 업데이트 (Contradictions & updates)
학습 주도권의 변화: 과거에는 외부에서 주어진 데이터를 학습하는 '문제 설정 뷰(Problem-setting view)'로 간주되었으나, 최신 연구에서는 에이전트가 스스로 탐색하고 반찰하는 '해결 패러다임 뷰(Solution-paradigm view)'로 확장되고 있다 [13, 14].
경험 내재화의 위험성: 다중 반복 학습 시 온폴리시(On-policy) 컨텍스트 증류를 사용할 경우 개선이 아닌 '점진적 역량 붕괴(Progressive capability collapse)'가 발생할 수 있다는 사실이 발견되었다 [7].
🛠️ 적용 사례 (Applied in summary)
DarwinTOD: 태스크 지향 대화 시스템에서 인간의 개입 없이 지속적으로 전략을 최적화하기 위해 진화 연산과 평생 학습을 결합하였다 [15].
LifelongAgentBench: 데이터베이스(DB), 운영체제(OS), 지식 그래프(KG) 도메인에 걸쳐 상호 의존적인 작업 시퀀스를 구성하여 에이전트의 평생 학습 능력을 평가하는 벤치마크로 활용된다 [16, 17].
Live-Evo: 지속적인 피드백과 분포 변화(Distribution shift)가 발생하는 라이브 데이터 스트림에서 에이전트 메모리를 온라인으로 진화시키는 시스템이다 [18].
MUSE: 계층적 메모리 모듈을 통해 실행-반찰-기억 루프를 수행하며 장기 작업에서 '업무 중 학습(Learning on the job)'을 구현하였다 [9, 19].
✅ 검증 상태 및 신뢰도
상태: draft
검증 단계: conceptual (실제 적용 사례 발견 시 applied/validated로 승격 가능)
출처 신뢰도: B (Official Documentation / Primary Source via NotebookLM)
중복 검사 결과: 신규 생성 (New discovery)
📝 변경 이력 (Change history)
2026-06-12: Initial draft generated via Datacollector_MAC P-Reinforce engine.