[G1-Sync] Manual knowledge update

2026-06-12 22:12:56 +09:00
parent 89fb05a28a
commit a4f58e0d9e
107 changed files with 7919 additions and 6 deletions
@@ -0,0 +1,66 @@
+---
+id: curriculum-learning
+title: "Curriculum Learning"
+category: "10_Wiki/Topics"
+status: "draft"
+verification_status: "conceptual"
+canonical_id: ""
+aliases: ["커리큘럼 학습"]
+duplicate_of: ""
+source_trust_level: "B"
+confidence_score: 0.85
+created_at: 2026-06-12
+updated_at: 2026-06-12
+review_reason: ""
+merge_history: []
+tags: ["research", "self envolving"]
+raw_sources: ["NotebookLM Synthesis"]
+applied_in: ["WebRL", "Voyager", "AgentGen", "TiZero", "MaskSearch", "Agent0"]
+github_commit: ""
+---
+
+# [[Curriculum Learning]]
+
+## 🎯 한 줄 통찰 (One-line insight)
+인간의 교육 과정처럼 학습 데이터를 난이도 순으로 배치하여 복잡한 작업에 대한 에이전트의 학습 효율과 성능을 극대화하는 전략적 훈련 방법론 [1, 2].
+
+## 🧠 핵심 개념 (Core concepts)
+- **난이도 측정기 (Difficulty Measurer):** 각 훈련 데이터 포인트의 복잡도나 난이도 수준을 정량화하는 구성 요소 [1].
+- **학습 스케줄러 (Training Scheduler):** 측정된 난이도에 따라 모델에게 제공되는 데이터의 순서를 재구성하는 메커니즘 [1].
+- **적응형 난이도 진행 (Adaptive Difficulty Progression):** 에이전트의 현재 성능에 맞춰 실시간으로 학습 작업의 복잡도를 조절하는 방식 [2, 3].
+- **자가 진화형 커리큘럼 (Self-Evolving Curriculum):** 에이전트의 실패 사례를 분석하여 관리 가능한 수준의 유사 작업을 자동으로 생성하고 학습 경로를 설계하는 루프 [2, 4].
+
+## 🧩 추출된 패턴 (Extracted patterns)
+- **쉬운 작업에서 어려운 작업으로 (Easy-to-Hard):** 기초적인 개념을 먼저 습득시킨 후 점진적으로 고난도 샘플을 제시하여 수렴 속도를 향상시킴 [1, 5].
+- **실패 기반 작업 생성 패턴:** 에이전트가 특정 작업에서 실패했을 때, 환경이나 생성기(Generator)가 해당 지점의 난이도를 낮춘 유사 작업을 제안하여 학습을 유도함 [2, 4].
+- **자기 대조적 난이도 형성 (Self-Play Curriculum):** 에이전트가 자신 또는 이전 버전과 경쟁하면서 경쟁 상대가 강해짐에 따라 자연스럽게 학습 난이도가 상승하는 패턴 [6].
+
+## 📖 세부 내용 (Details)
+커리큘럼 러닝은 데이터 시퀀스를 난이도가 높아지는 순서로 배치하여 모델이 복잡한 샘플을 더 효과적으로 처리할 수 있도록 돕는 학습 문제 설정(Problem-setting) 관점의 접근법이다 [1, 7]. 이 방법론은 컴퓨터 비전, 자연어 처리, 음성 인식 등 다양한 분야에서 널리 채택되어 왔으며, 최근에는 대규모 언어 모델(LLM)의 사후 학습(Post-training) 단계에도 적용되고 있다 [1].
+
+자가 진화 에이전트(Self-evolving agents) 맥락에서 커리큘럼 러닝은 고정된 데이터셋을 넘어 동적인 환경 적응 메커니즘으로 확장된다 [1, 2]. 주요 특징은 다음과 같다:
+- **동적 작업 생성:** 에이전트가 직면한 환경에서 실패할 경우, 시스템은 자동으로 난이도를 조절한 작업을 생성하여 에이전트가 점진적으로 역량을 확장하게 한다 [2].
+- **시행착오와의 결합:** Voyager와 같은 시스템은 Minecraft 환경에서 에이전트의 진행 상황에 따라 적절한 다음 작업을 제안하는 바텀업 커리큘럼을 사용하여 기술 라이브러리를 구축한다 [2].
+- **지능형 환경 합성:** AgentGen과 같은 프레임워크는 시뮬레이션 환경 자체를 생성하고 작업 난이도를 조절하는 이중 진화 루프를 통해 에이전트가 동적인 커리큘럼 내에서 성장하도록 지원한다 [8].
+- **성능 향상 증거:** WebRL 프레임워크는 자가 생성 커리큘럼을 통해 웹 탐색 성공률을 4.8%에서 42.4%로 대폭 향상시킨 사례가 보고되었다 [4].
+
+## ⚖️ 모순 및 업데이트 (Contradictions & updates)
+- **정적 vs 동적 환경:** 전통적인 커리큘럼 러닝은 정적인 데이터셋에서 작동하며 모델 파라미터 업데이트에만 집중하지만, 자가 진화 에이전트의 커리큘럼은 동적인 환경에서 메모리와 도구 등 비파라미터적 요소까지 조정한다는 점에서 차이가 있다 [1].
+- **문제 설정 vs 해결 패러다임:** 커리큘럼 러닝은 학습 경험을 조직하는 '문제 설정(Problem-setting)' 관점인 반면, 자가 진화 에이전트는 에이전트 자체가 변화하는 '해결 패러다임(Solution-paradigm)'으로 분류된다 [7, 9].
+
+## 🛠️ 적용 사례 (Applied in summary)
+- **WebRL:** 에이전트가 실패한 작업을 바탕으로 유사하지만 관리 가능한 작업을 자동 생성하여 웹 내비게이션 성능을 개선함 [2, 4, 10].
+- **Voyager:** Minecraft 내에서 GPT-4가 에이전트의 숙련도에 맞춰 다음 목표를 제안하는 자동화된 하향식 커리큘럼을 사용함 [2].
+- **AgentGen:** 훈련 작업의 난이도를 점진적으로 조정하는 양방향 진화 루프를 통해 계획 능력을 강화함 [8].
+- **TiZero:** 축구 게임 에이전트 학습 시 시연 데이터 없이 기초부터 습득하기 위해 적응형 커리큘럼 러닝을 도입함 [11].
+- **MaskSearch:** 마스크 처리된 스팬(Spans)의 개수에 따라 쉬운 인스턴스부터 어려운 인스턴스까지 점진적으로 학습함 [5].
+- **Agent0:** 커리큘럼 에이전트와 실행 에이전트 간의 공생적 경쟁을 통해 도구 사용 능력을 향상시키는 자가 강화 사이클을 구축함 [12].
+
+## ✅ 검증 상태 및 신뢰도
+- **상태:** draft
+- **검증 단계:** conceptual (실제 적용 사례가 여러 프로젝트에서 확인됨)
+- **출처 신뢰도:** B (Official Documentation / Primary Source via NotebookLM)
+- **중복 검사 결과:** 신규 생성 (New discovery)
+
+## 📝 변경 이력 (Change history)
+- 2026-06-12: Initial draft generated via Datacollector_MAC P-Reinforce engine.