8.8 KiB
8.8 KiB
id, title, category, status, verification_status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, created_at, updated_at, tags, raw_sources, applied_in, github_commit
| id | title | category | status | verification_status | canonical_id | aliases | duplicate_of | source_trust_level | confidence_score | created_at | updated_at | tags | raw_sources | applied_in | github_commit | |||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| self-evolving-agent-techniques-2026 | Self-Evolving Agent 기법 조사 (2026-06) | AI_and_ML | verified | verified | self-evolving-agent-techniques |
|
A | 0.9 | 2026-06-12 | 2026-06-12 |
|
|
|
Self-Evolving Agent 기법 조사 (2026-06)
🎯 한 줄 통찰 (One-line insight)
파인튜닝 없이 프롬프트·파일 수준에서 동작하는 자기 진화 기법(Reflexion류 언어적 성찰, A-MEM/Mem0류 LLM 주도 메모리 통합, sleep-time compute)이 학술적으로 검증돼 있으며, ASTRA의 lessons/·Correction Loop는 이미 Reflexion의 구조적 등가물이다 — 다음 격차는 **유휴 시간 지식 소화(sleep-time)와 기억의 상호 연결·통합(consolidation)**이다.
조사 방법: 5개 각도 병렬 웹 검색 → 22개 소스 → 108개 주장 추출 → 주장별 3표 적대적 검증 → 22건 확정 / 3건 기각 (기각된 수치는 본 문서에 인용하지 않음).
🧠 핵심 개념 (Core concepts)
- 4요소 프레임워크 (Fang et al., arXiv 2508.07407): self-evolving 루프 = System Inputs / Agent System / Environment / Optimisers. 대부분의 에이전트는 "배포 후 정적"이며, 진화형은 상호작용 데이터로 자동 개선된다. ASTRA 점검 결과 가장 약한 계층은 명시적 Optimiser(무엇을 어떤 탐색공간에서 어떤 알고리즘으로 갱신하는가의 선언).
- Reflexion (NeurIPS 2023): 가중치 업데이트 없이 언어적 피드백(verbal reflection) 을 episodic memory에 저장해 다음 시도 프롬프트에 주입. ASTRA의 Correction Loop(정정→태깅 레슨→[자기검토] 주입)와 구조적 동형 — 단 Reflexion은 동일 과업 재시도 내, ASTRA는 과업 간 영속이라는 차이. 탐색 중심 과업에서는 효과가 없었다는 한계 보고.
- Sleep-time Compute (Letta+Berkeley, arXiv 2504.13171): 유휴 시간에 미래 질의를 예측하며 raw context → learned context 변환. 측정 효과(수학 QA 기준): 동일 정확도에 필요한 테스트타임 연산
5배 절감, sleep-time 연산 스케일링 시 정확도 최대 +1318%, 관련 질의 간 분할상환 시 질의당 비용 2.5배 절감. 구현은 primary agent + sleep-time agent 2-에이전트가 공유 메모리 블록을 편집. - A-MEM (NeurIPS 2025): Zettelkasten 원리 — 새 기억 추가 시 LLM이 맥락·키워드·태그를 가진 구조화 노트를 생성하고 과거 기억과 의미 링크를 동적으로 생성. memory evolution: 새 기억 통합이 기존 기억의 맥락 표현을 역방향 갱신. 로컬 LLM+임베딩+파일만으로 구현 가능.
- Mem0 통합 파이프라인 (arXiv 2504.19413): 사실 추출 후 LLM이 기존 저장소 대비 ADD / UPDATE / DELETE / NOOP 4연산 중 선택. 전체 이력 주입 대비 p95 지연 -91%, 토큰 -90%+ (벤더 자체 측정). DELETE 연산은 모순 지식 해소를 자동화.
- LLM-as-Judge 과신 문제 (arXiv 2508.06225): 판정 모델의 자기보고 확신도는 실제 정확도를 크게 상회(ECE 최대 74%; GPT-4o도 확신 90-100% 구간에서 실제 정확도 ~50%). raw 확신도로 게이팅하면 안 됨. 보정책: 순서 교체 2회 판정, 루브릭 분해, 다중 판정 융합(Fuser, ECE 최대 -54%), 저확신→사람 에스컬레이션.
- Judge 편향 카탈로그 (arXiv 2412.05579): 위치 편향·장황함 편향·자기강화 편향·과신 편향이 체계적으로 문서화됨 — judge 도입 시 최소 요건은 순서 교체 + 루브릭 항목별 판정.
🧩 추출된 패턴 (Extracted patterns)
- "파인튜닝 없는 지속 학습"은 전부 텍스트가 매개: 검증된 기법 전부가 성찰문·구조화 노트·연산 선택을 파일/프롬프트로 표현한다 — ASTRA의 md-first 철학과 정확히 일치.
- 자동화의 안전판은 보정과 승인: 자기 평가(judge)는 과신·편향이 기본값이므로, 고확신 자동 수락은 보정 곡선 산출 이후에만 — 그 전까지는 사람 승인 게이트 뒤에 둔다 (ASTRA의 Permission Based Learning이 학술적으로 옳은 설계임을 확인).
- 로컬 단일 GPU에서 sleep-time은 "병렬 2티어"가 아니라 "부하의 시간 이동": primary/sleep-time 모델이 하드웨어를 공유하므로, 이득은 응답 시점의 지연을 유휴 시간으로 옮기는 데서 온다.
📖 세부 내용 (Details)
ASTRA 적용 우선순위 (검증 결과 기반 제안)
| 순위 | 기법 | 적용 형태 | 근거 |
|---|---|---|---|
| 1 | Sleep-time 지식 소화 | 주간 성장 사이클(또는 야간 배치)에 "사전 소화" 단계 추가 — 유휴 시간에 로컬 LLM이 위키 섹션·레슨·일화 기억을 읽고 예상 질의별 learned-context 요약을 생성, RAG로 검색 가능하게 저장 | 기존 사이클 인프라 재사용, 측정 효과 최대, 로컬 LLM 지연 약점을 구조적으로 우회 |
| 2 | A-MEM식 레슨 네트워크화 | 레슨 저장 훅에 태그·링크 후보(임베딩 top-k) 생성 + 링크된 기존 레슨의 맥락 필드 역방향 갱신 | 파일 기반 그대로, Correction Loop에 자연 삽입 |
| 3 | Mem0식 4연산 통합 | 지식 노후 점검을 규칙 기반에서 LLM 판단(ADD/UPDATE/DELETE/NOOP)으로 승격 — 단 DELETE는 사람 승인 큐 경유 | 모순 지식 자동 식별, 로컬 컨텍스트 절약 |
| 4 | 보정된 LLM-judge 평가 확대 | 골든셋으로 judge 캘리브레이션 곡선 먼저 산출 → 고확신 자동 수락 + 저확신 승인 큐 2단 게이트. 순서 교체·루브릭 분해 필수 | 과신 증거상 보정 없는 자동화는 위험 |
보강 아이디어
- 실패 성찰 레슨: 사용자 정정뿐 아니라 골든셋 평가 실패 시에도 자동으로 성찰 레슨 생성 → 약점 프로필에 누적 (Reflexion의 재시도 루프를 주간 사이클로 이식).
- 독립 환각 탐지 모델: GROUNDING 게이팅을 "생성 LLM 자기보고"에서 Vectara HHEM 같은 로컬 실행 가능한 소형 전용 탐지 모델 점수로 보강하는 경로 존재 (arXiv 2503.21157 — 단 벤더 연계 벤치마크라 순위는 보류, 방법론만 차용).
신뢰 한계 (조사의 정직한 단서)
- 정량 효과는 도메인 전이 불가 — sleep-time
5x/+1318%는 수학 QA, Mem0 효율은 대화 벤치마크 기준. ASTRA 골든셋으로 자체 재측정이 필수. - Letta·Mem0·Cleanlab 자료는 벤더 연계 (Mem0 정확도 순위는 Zep의 공개 반박 존재) — 메커니즘만 채택, 비교 우위 주장은 배제.
- 검증 기각 3건 (인용 금지): Reflexion HumanEval 91%, A-MEM 소형모델 F1 수치, Mem0 vs OpenAI 26%.
- 미해결 질문: ① 소형 로컬 모델이 A-MEM/Mem0식 메모리 연산을 신뢰할 품질로 수행하는가(실측 필요) ② learned context의 노후화 감지·재생성 주기 ③ 골든셋 수백 건 규모로 judge 보정이 가능한가.
⚖️ 모순 및 업데이트 (Contradictions & updates)
- "LLM이 스스로 평가하면 자동화 완성"이라는 통념은 과신·자기강화 편향 증거와 모순 — 보정 전 judge는 자동 수락 게이트로 부적합하다.
✅ 검증 상태 및 신뢰도
- 상태: verified · 검증: 주장별 3표 적대적 검증 (22 확정 / 3 기각)
- 출처 신뢰도: A (NeurIPS 게재 2건 + arXiv 프리프린트, 벤더 자료는 단서 명기) · 신뢰 점수: 0.9
🔗 지식 그래프 (Knowledge Graph)
- 상위/루트: AI_and_ML
- 관련 개념: ASTRA 자기 아키텍처, Awareness Gap (인지 공백), RAG 아키텍처 및 파이프라인 기초, Advanced RAG 기법
- 참조 맥락: ASTRA self-evolving 로드맵 수립, 주간 성장 사이클 고도화 설계의 1순위 근거.
📝 변경 이력 (Change history)
- 2026-06-12: 최초 작성 — deep research (5각도·22소스·3표 검증) 결과 정착.
- 2026-06-12: 1순위 sleep-time 사전 소화 구현 적용 (v2.2.224,
Digests/폴더).