diff --git a/10_Wiki/Topics/AI_and_ML/Self-Evolving Agent 기법 조사 (2026-06).md b/10_Wiki/Topics/AI_and_ML/Self-Evolving Agent 기법 조사 (2026-06).md new file mode 100644 index 00000000..e72ba7bf --- /dev/null +++ b/10_Wiki/Topics/AI_and_ML/Self-Evolving Agent 기법 조사 (2026-06).md @@ -0,0 +1,73 @@ +--- +id: self-evolving-agent-techniques-2026 +title: "Self-Evolving Agent 기법 조사 (2026-06)" +category: "AI_and_ML" +status: "verified" +verification_status: "verified" +canonical_id: "self-evolving-agent-techniques" +aliases: ["Self-Evolving Agent", "자기 진화 에이전트", "Sleep-time Compute", "A-MEM", "Mem0", "Reflexion", "LLM-as-Judge 보정", "메모리 통합", "memory consolidation"] +duplicate_of: "" +source_trust_level: "A" +confidence_score: 0.9 +created_at: 2026-06-12 +updated_at: 2026-06-12 +tags: ["self-evolving", "agent", "memory", "sleep-time", "LLM-as-judge", "ASTRA", "research"] +raw_sources: ["arXiv 2508.07407 (서베이)", "arXiv 2303.11366 (Reflexion, NeurIPS 2023)", "arXiv 2504.13171 + letta.com/blog (Sleep-time)", "arXiv 2502.12110 (A-MEM, NeurIPS 2025)", "arXiv 2504.19413 (Mem0)", "arXiv 2508.06225 (Judge 과신)", "arXiv 2412.05579 (Judge 서베이)", "arXiv 2503.21157 (환각 탐지 벤치마크)"] +applied_in: [] +github_commit: "" +--- + +# [[Self-Evolving Agent 기법 조사 (2026-06)]] + +## 🎯 한 줄 통찰 (One-line insight) +파인튜닝 없이 프롬프트·파일 수준에서 동작하는 자기 진화 기법(Reflexion류 언어적 성찰, A-MEM/Mem0류 LLM 주도 메모리 통합, sleep-time compute)이 학술적으로 검증돼 있으며, ASTRA의 lessons/·Correction Loop는 이미 Reflexion의 구조적 등가물이다 — 다음 격차는 **유휴 시간 지식 소화(sleep-time)와 기억의 상호 연결·통합(consolidation)**이다. + +> 조사 방법: 5개 각도 병렬 웹 검색 → 22개 소스 → 108개 주장 추출 → 주장별 3표 적대적 검증 → 22건 확정 / 3건 기각 (기각된 수치는 본 문서에 인용하지 않음). + +## 🧠 핵심 개념 (Core concepts) +- **4요소 프레임워크** (Fang et al., arXiv 2508.07407): self-evolving 루프 = System Inputs / Agent System / Environment / **Optimisers**. 대부분의 에이전트는 "배포 후 정적"이며, 진화형은 상호작용 데이터로 자동 개선된다. ASTRA 점검 결과 가장 약한 계층은 명시적 Optimiser(무엇을 어떤 탐색공간에서 어떤 알고리즘으로 갱신하는가의 선언). +- **Reflexion** (NeurIPS 2023): 가중치 업데이트 없이 **언어적 피드백(verbal reflection)** 을 episodic memory에 저장해 다음 시도 프롬프트에 주입. ASTRA의 Correction Loop(정정→태깅 레슨→[자기검토] 주입)와 구조적 동형 — 단 Reflexion은 동일 과업 재시도 내, ASTRA는 과업 간 영속이라는 차이. 탐색 중심 과업에서는 효과가 없었다는 한계 보고. +- **Sleep-time Compute** (Letta+Berkeley, arXiv 2504.13171): 유휴 시간에 미래 질의를 예측하며 **raw context → learned context** 변환. 측정 효과(수학 QA 기준): 동일 정확도에 필요한 테스트타임 연산 ~5배 절감, sleep-time 연산 스케일링 시 정확도 최대 +13~18%, 관련 질의 간 분할상환 시 질의당 비용 2.5배 절감. 구현은 primary agent + sleep-time agent 2-에이전트가 공유 메모리 블록을 편집. +- **A-MEM** (NeurIPS 2025): Zettelkasten 원리 — 새 기억 추가 시 LLM이 맥락·키워드·태그를 가진 구조화 노트를 생성하고 과거 기억과 의미 링크를 동적으로 생성. **memory evolution**: 새 기억 통합이 기존 기억의 맥락 표현을 역방향 갱신. 로컬 LLM+임베딩+파일만으로 구현 가능. +- **Mem0 통합 파이프라인** (arXiv 2504.19413): 사실 추출 후 LLM이 기존 저장소 대비 **ADD / UPDATE / DELETE / NOOP** 4연산 중 선택. 전체 이력 주입 대비 p95 지연 -91%, 토큰 -90%+ (벤더 자체 측정). DELETE 연산은 모순 지식 해소를 자동화. +- **LLM-as-Judge 과신 문제** (arXiv 2508.06225): 판정 모델의 자기보고 확신도는 실제 정확도를 크게 상회(ECE 최대 74%; GPT-4o도 확신 90-100% 구간에서 실제 정확도 ~50%). **raw 확신도로 게이팅하면 안 됨**. 보정책: 순서 교체 2회 판정, 루브릭 분해, 다중 판정 융합(Fuser, ECE 최대 -54%), 저확신→사람 에스컬레이션. +- **Judge 편향 카탈로그** (arXiv 2412.05579): 위치 편향·장황함 편향·자기강화 편향·과신 편향이 체계적으로 문서화됨 — judge 도입 시 최소 요건은 순서 교체 + 루브릭 항목별 판정. + +## 🧩 추출된 패턴 (Extracted patterns) +- **"파인튜닝 없는 지속 학습"은 전부 텍스트가 매개**: 검증된 기법 전부가 성찰문·구조화 노트·연산 선택을 *파일/프롬프트*로 표현한다 — ASTRA의 md-first 철학과 정확히 일치. +- **자동화의 안전판은 보정과 승인**: 자기 평가(judge)는 과신·편향이 기본값이므로, 고확신 자동 수락은 보정 곡선 산출 이후에만 — 그 전까지는 사람 승인 게이트 뒤에 둔다 (ASTRA의 Permission Based Learning이 학술적으로 옳은 설계임을 확인). +- **로컬 단일 GPU에서 sleep-time은 "병렬 2티어"가 아니라 "부하의 시간 이동"**: primary/sleep-time 모델이 하드웨어를 공유하므로, 이득은 응답 시점의 지연을 유휴 시간으로 옮기는 데서 온다. + +## 📖 세부 내용 (Details) +### ASTRA 적용 우선순위 (검증 결과 기반 제안) +| 순위 | 기법 | 적용 형태 | 근거 | +|---|---|---|---| +| 1 | **Sleep-time 지식 소화** | 주간 성장 사이클(또는 야간 배치)에 "사전 소화" 단계 추가 — 유휴 시간에 로컬 LLM이 위키 섹션·레슨·일화 기억을 읽고 예상 질의별 learned-context 요약을 생성, RAG로 검색 가능하게 저장 | 기존 사이클 인프라 재사용, 측정 효과 최대, 로컬 LLM 지연 약점을 구조적으로 우회 | +| 2 | **A-MEM식 레슨 네트워크화** | 레슨 저장 훅에 태그·링크 후보(임베딩 top-k) 생성 + 링크된 기존 레슨의 맥락 필드 역방향 갱신 | 파일 기반 그대로, Correction Loop에 자연 삽입 | +| 3 | **Mem0식 4연산 통합** | 지식 노후 점검을 규칙 기반에서 LLM 판단(ADD/UPDATE/DELETE/NOOP)으로 승격 — 단 DELETE는 사람 승인 큐 경유 | 모순 지식 자동 식별, 로컬 컨텍스트 절약 | +| 4 | **보정된 LLM-judge 평가 확대** | 골든셋으로 judge 캘리브레이션 곡선 먼저 산출 → 고확신 자동 수락 + 저확신 승인 큐 2단 게이트. 순서 교체·루브릭 분해 필수 | 과신 증거상 보정 없는 자동화는 위험 | + +### 보강 아이디어 +- **실패 성찰 레슨**: 사용자 정정뿐 아니라 골든셋 평가 *실패* 시에도 자동으로 성찰 레슨 생성 → 약점 프로필에 누적 (Reflexion의 재시도 루프를 주간 사이클로 이식). +- **독립 환각 탐지 모델**: GROUNDING 게이팅을 "생성 LLM 자기보고"에서 Vectara HHEM 같은 로컬 실행 가능한 소형 전용 탐지 모델 점수로 보강하는 경로 존재 (arXiv 2503.21157 — 단 벤더 연계 벤치마크라 순위는 보류, 방법론만 차용). + +### 신뢰 한계 (조사의 정직한 단서) +- 정량 효과는 도메인 전이 불가 — sleep-time ~5x/+13~18%는 수학 QA, Mem0 효율은 대화 벤치마크 기준. **ASTRA 골든셋으로 자체 재측정이 필수.** +- Letta·Mem0·Cleanlab 자료는 벤더 연계 (Mem0 정확도 순위는 Zep의 공개 반박 존재) — 메커니즘만 채택, 비교 우위 주장은 배제. +- 검증 기각 3건 (인용 금지): Reflexion HumanEval 91%, A-MEM 소형모델 F1 수치, Mem0 vs OpenAI 26%. +- 미해결 질문: ① 소형 로컬 모델이 A-MEM/Mem0식 메모리 연산을 신뢰할 품질로 수행하는가(실측 필요) ② learned context의 노후화 감지·재생성 주기 ③ 골든셋 수백 건 규모로 judge 보정이 가능한가. + +## ⚖️ 모순 및 업데이트 (Contradictions & updates) +- "LLM이 스스로 평가하면 자동화 완성"이라는 통념은 과신·자기강화 편향 증거와 모순 — 보정 전 judge는 자동 수락 게이트로 부적합하다. + +## ✅ 검증 상태 및 신뢰도 +- **상태:** verified · **검증:** 주장별 3표 적대적 검증 (22 확정 / 3 기각) +- **출처 신뢰도:** A (NeurIPS 게재 2건 + arXiv 프리프린트, 벤더 자료는 단서 명기) · **신뢰 점수:** 0.9 + +## 🔗 지식 그래프 (Knowledge Graph) +- **상위/루트:** [[AI_and_ML]] +- **관련 개념:** [[ASTRA 자기 아키텍처]], [[Awareness Gap (인지 공백)]], [[RAG 아키텍처 및 파이프라인 기초]], [[Advanced RAG 기법]] +- **참조 맥락:** ASTRA self-evolving 로드맵 수립, 주간 성장 사이클 고도화 설계의 1순위 근거. + +## 📝 변경 이력 (Change history) +- 2026-06-12: 최초 작성 — deep research (5각도·22소스·3표 검증) 결과 정착.