docs(wiki): Finalized P-Reinforce v3.0 wikification of all 118 out_wiki assets
This commit is contained in:
@@ -0,0 +1,38 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-EVBM-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, ai-evaluation, benchmarks, niah, ruler, mmlu, lmsys, evaluation-metrics]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[AI Evaluation & Benchmarks|AI Evaluation & Benchmarks]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "지능의 척도: 모델의 성능을 단순히 '좋다'고 말하는 대신, 수학, 코딩, 상식, 그리고 백만 토큰 속에서의 기억력 등 정량적 지표를 통해 모델의 실질적인 체급을 측정하는 표준화된 시험지."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
AI 모델의 능력을 객관적으로 비교하고 한계를 파악하기 위한 표준화된 평가 지표들입니다.
|
||||
|
||||
1. **전통적 벤치마크**:
|
||||
* **MMLU (Massive Multitask Language Understanding)**: 인문학, 사회과학, 수학 등 57개 주제에 대한 지식을 측정하는 표준 시험.
|
||||
* **HumanEval / MBPP**: 모델의 파이썬 코드 생성 능력을 평가.
|
||||
* **GSM8K**: 초등학교 수준의 다단계 수학 문장제 문제 해결 능력 측정.
|
||||
2. **롱 컨텍스트 벤치마크**:
|
||||
* **Needle In A Haystack (NIAH)**: 거대 문맥 속 특정 정보 검색 능력을 시각적 도표로 확인.
|
||||
* **RULER**: 단순 검색을 넘어 요약, 추론 등 복잡한 롱 컨텍스트 활용 능력을 종합 평가.
|
||||
3. **실전 및 에이전트 평가**:
|
||||
* **LMSYS Chatbot Arena**: 실제 사용자들의 블라인드 테스트를 통한 엘로(Elo) 레이팅 시스템.
|
||||
* **MCP-Atlas**: [[Model Context Protocol (MCP)|MCP]]를 활용한 도구 통합 및 오케스트레이션 성능 측정.
|
||||
* **SWE-bench**: 실제 오픈소스 GitHub 이슈를 모델이 직접 해결할 수 있는지 측정.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **데이터 오염 (Contamination)**: 평가 데이터가 모델의 학습 데이터에 포함되어, 실제 지능보다 점수가 높게 나오는 '암기형 점수' 문제가 심각합니다.
|
||||
* **Goodhart's Law**: 지표가 목표가 되는 순간, 그 지표는 더 이상 좋은 지표가 아니게 됩니다. (점수만을 높이기 위한 편법 학습 성행)
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **성능 관련**: [[LLM Capabilities|LLM Capabilities]], [[Reasoning Models|Reasoning Models]]
|
||||
* **기술 관련**: [[Context Window & Long-Context LLMs|Context Window]], [[Tool Use & Function Calling|Tool Use]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,38 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-SAFE-001
|
||||
category: Unified
|
||||
confidence_score: 0.98
|
||||
tags: [auto-reinforced, ai-safety, constitutional-ai, alignment, anthropic, ethics]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[AI Safety & Constitutional AI|AI Safety & Constitutional AI]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "양심을 가진 기계: 인간의 일일이 개입하는 잔소리 대신, '헌법'이라 불리는 핵심 원칙들을 모델 스스로 내면화하게 하여 유해성을 걸러내고 인류의 가치에 정렬시키는 시스템적 윤리 가드레일."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
AI 안전(Safety)은 모델이 인류에게 해를 끼치지 않도록 통제하는 기술이며, Constitutional AI(헌법적 AI)는 이를 실현하는 가장 진보된 방법론 중 하나입니다.
|
||||
|
||||
1. **Constitutional AI (앤스로픽)**:
|
||||
* **원리**: 인간이 모든 답변을 평가하는 대신, 명문화된 '헌법(원칙)'을 제시하고 모델이 스스로 자신의 답변을 평가하고 수정(Self-critique)하게 합니다.
|
||||
* **단계**: [AI 피드백 생성] $\rightarrow$ [수정된 답변으로 학습(RLAIF)].
|
||||
* **효과**: 맹목적으로 답변을 거부하는 것이 아니라, 맥락을 이해하며 유연하게 위험을 회피하고 환각 대신 불확실성을 인정하게 합니다.
|
||||
2. **핵심 안전 과제**:
|
||||
* **CBRN 방어**: 화학(C), 생물(B), 방사능(R), 핵(N)과 관련된 위험 정보를 생성하지 않도록 정렬합니다.
|
||||
* **탈옥(Jailbreak) 방지**: 악의적인 프롬프트 주입을 통해 안전 가이드라인을 무력화하려는 시도를 차단합니다.
|
||||
* **Over-refusal 완화**: 너무 조심스러워서 무해한 질문에도 답변을 거부하는 현상을 줄이는 것이 현대 안전 기술의 숙제입니다.
|
||||
3. **RLAIF (RL from AI Feedback)**:
|
||||
* 인간 대신 다른 강력한 모델(Teacher model)의 피드백을 사용하여 효율적으로 대규모 모델을 정렬하는 기술입니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **지능과 안전의 균형**: 안전 가드레일이 너무 강하면 모델의 창의성이나 문제 해결 능력이 저하될 수 있습니다.
|
||||
* **가치 편향**: '헌법'을 누가, 어떻게 정의하느냐에 따라 특정 문화나 정치적 가치관이 모델에 주입될 위험이 있습니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[AI Governance|AI Governance]], [[Alignment|Alignment]]
|
||||
* **관련 모델**: [[Claude|Claude]] (헌법적 AI의 선구자)
|
||||
* **연관 기술**: [[RLHF & DPO|RLHF & DPO]], [[Prompt Injection|Prompt Injection]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,38 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-AMMS-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, agent-memory, long-term-memory, short-term-memory, episodic-memory, vector-db]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Agent Memory Systems|Agent Memory Systems]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "시간을 넘는 지능의 연속성: 단기적인 대화 맥락(Short-term)을 넘어, 과거의 모든 경험과 지식을 저장하고 필요할 때 의미적으로 회상(Long-term)함으로써 시간이 흐를수록 더 똑똑해지는 에이전트의 제2의 뇌."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
에이전트 메모리 시스템은 모델의 제한된 컨텍스트 윈도우를 넘어 정보를 영구적으로 유지하고 관리하는 체계입니다.
|
||||
|
||||
1. **메모리 계층 구조**:
|
||||
* **Short-term Memory (단기 메모리)**: 현재 대화 세션의 기록. 컨텍스트 윈도우 내에 존재하며 가장 빠르고 정확하게 참조됩니다.
|
||||
* **Long-term Memory (장기 메모리)**: 과거 세션의 기록이나 외부 지식. [[Vector Database|벡터 데이터베이스]]에 저장되며 검색(Retrieval)을 통해 필요한 부분만 불러옵니다.
|
||||
* **Episodic Memory (일화 메모리)**: 에이전트가 수행했던 특정 작업의 과정과 결과(성공/실패)를 기록하여 미래의 유사한 작업에 참고합니다.
|
||||
* **Procedural Memory (절차 메모리)**: 에이전트가 도구를 사용하거나 특정 워크플로우를 수행하는 방법(노하우)을 저장합니다.
|
||||
2. **메모리 관리 전략**:
|
||||
* **Eviction (제거)**: 중요도가 낮거나 오래된 정보를 삭제하여 제한된 자원을 관리합니다.
|
||||
* **Summarization (요약)**: 긴 대화 기록을 핵심 위주로 요약하여 토큰 사용량을 최적화합니다.
|
||||
* **Semantic Search**: 키워드가 아닌 '의미'를 기준으로 관련 기억을 찾아냅니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **Context Rot (컨텍스트 부패)**: 너무 많은 기억을 불러오면 모델이 현재 작업에 집중하지 못하거나 혼란을 겪는 현상이 발생합니다.
|
||||
* **인프라 복잡성**: 벡터 DB, 시맨틱 검색 서버, 캐싱 시스템 등 추가적인 인프라 구축과 유지보수 비용이 발생합니다.
|
||||
* **프라이버시**: 사용자의 개인적인 대화나 민감 정보가 장기 메모리에 저장될 경우 보안 및 개인정보 보호 문제가 중요해집니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[Autonomous Agents & Workflows|Autonomous Agents & Workflows]]
|
||||
* **기반 기술**: [[Vector Database|Vector Database]], [[Retrieval-Augmented Generation (RAG)|RAG]]
|
||||
* **연관 기술**: [[KV Cache Management|KV Cache Management]], [[Context Window Management|Context Window Management]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,38 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-AGWF-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, agentic-ai, autonomous-agents, reasoning-loop, planning, task-execution]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Autonomous Agents & Workflows|Autonomous Agents & Workflows]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "수동적 도구에서 능동적 파트너로: 단순한 질문 답변을 넘어, 목표를 달성하기 위해 스스로 계획을 세우고, 도구를 사용하며, 결과를 검증하고 수정하는 자율적인 실행 루프의 총체."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
에이전틱 AI(Agentic AI)는 모델이 자율성을 가지고 다단계 작업을 수행하는 시스템 아키텍처를 의미합니다.
|
||||
|
||||
1. **핵심 구성 요소**:
|
||||
* **Planning (계획)**: 복잡한 목표를 작은 하위 작업(Sub-tasks)으로 분해하고 실행 순서를 결정합니다.
|
||||
* **Reasoning (추론)**: 매 단계마다 현재 상태를 분석하고 다음 행동을 논리적으로 결정합니다 ([[Chain-of-Thought (CoT)|Chain-of-Thought]] 활용).
|
||||
* **Action (실행)**: 외부 도구(API, 브라우저, 코드 실행기 등)를 호출하여 실질적인 변화를 만듭니다.
|
||||
* **Memory (메모리)**: 과거의 경험과 상호작용 기록을 저장하고 회상하여 일관성을 유지합니다.
|
||||
2. **대표적 워크플로우 패턴**:
|
||||
* **Reflection (반성)**: 결과물을 스스로 비판하고 수정하여 품질을 높이는 루프.
|
||||
* **Multi-agent Collaboration**: 서로 다른 역할을 가진 여러 에이전트가 협력하여 문제를 해결 (예: 코딩 에이전트 + 리뷰 에이전트).
|
||||
* **ReAct**: 추론(Reason)과 행동(Act)을 번갈아 수행하며 실시간으로 피드백을 반영하는 방식.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **복잡성 및 비용**: 다단계 루프와 반복적인 모델 호출로 인해 단발성 요청보다 비용과 시간이 월등히 많이 소요됩니다.
|
||||
* **오류 전파 (Error Propagation)**: 초기 단계에서 잘못된 계획을 세우거나 도구 사용에 실패할 경우, 후속 단계에서 오류가 증폭되어 전혀 엉뚱한 결과가 나올 수 있습니다.
|
||||
* **루프 고착**: 명확한 종료 조건이 없으면 에이전트가 무한 루프에 빠지거나 자원을 낭비할 수 있습니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[Artificial General Intelligence (AGI)|AGI]], [[Reasoning Models|Reasoning Models]]
|
||||
* **세부 기술**: [[Tool Use & Function Calling|Tool Use & Function Calling]], [[Agent Memory Systems|Agent Memory Systems]], [[Model Context Protocol (MCP)|Model Context Protocol (MCP)]]
|
||||
* **프레임워크**: LangChain, AutoGPT, CrewAI, Antigravity Astra
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,36 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-COTR-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, chain-of-thought, cot, reasoning, prompt-engineering, logic]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Chain-of-Thought (CoT) & Reasoning|Chain-of-Thought (CoT) & Reasoning]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "생각의 사슬: 답변을 내놓기 전 그 과정을 단계별로 서술하게 함으로써, 모델의 논리적 오류를 줄이고 복잡한 문제 해결 능력을 비약적으로 향상시키는 지능의 내면화 기법."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
사고 사슬(Chain-of-Thought, CoT)은 모델이 복잡한 문제를 해결할 때 중간 추론 단계를 명시적으로 생성하도록 유도하는 프롬프트 및 학습 기술입니다.
|
||||
|
||||
1. **핵심 원리**:
|
||||
* **단계별 추론**: "단계별로 생각해보자(Let's think step by step)"와 같은 지시를 통해 모델이 바로 결론으로 점프하지 않고 논리적 흐름을 타게 만듭니다.
|
||||
* **오류 검출**: 중간 단계가 기록되므로, 모델 스스로 또는 외부에서 어디서 논리가 꼬였는지 파악하고 수정하기 용이해집니다.
|
||||
2. **주요 변형**:
|
||||
* **Self-Consistency**: 여러 개의 서로 다른 추론 경로를 생성한 뒤, 가장 많이 나온 결론을 선택하여 정확도를 높입니다.
|
||||
* **Least-to-Most Prompting**: 문제를 가장 쉬운 부분부터 해결하며 점진적으로 난이도를 높여갑니다.
|
||||
3. **학습 모델 (Reasoning Models)**:
|
||||
* 최근의 [[Reasoning Models|Reasoning Models]](o1, R1 등)은 프롬프트 기법을 넘어, 학습 단계부터 대규모 CoT를 생성하고 최적화하도록 강화학습을 거친 모델들입니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **토큰 소모**: 중간 과정을 모두 출력하므로 출력 토큰 수가 급격히 늘어나며 비용과 지연 시간이 증가합니다.
|
||||
* **중간 정보 누락**: 너무 긴 CoT를 생성할 경우, 초기 설정된 목표를 잊어버리거나 엉뚱한 결론으로 흐르는 '추론 표류' 현상이 발생할 수 있습니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[Autonomous Agents & Workflows|Autonomous Agents & Workflows]], [[Reasoning Models|Reasoning Models]]
|
||||
* **연관 기술**: [[ReAct|ReAct]], [[Self-Correction|Self-Correction]]
|
||||
* **응용**: 복잡한 수학 문제 풀이, 코드 디버깅, 다단계 전략 수립
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,38 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-CHKP-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, chunking, data-preprocessing, rag-optimization, context-window]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Chunking & Pre-processing|Chunking & Pre-processing]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "지식의 조각내기: 방대한 문서를 모델이 소화하기 가장 적절한 크기로 나누고, 맥락이 끊기지 않도록 정교하게 연결하여 RAG의 검색 품질을 결정짓는 보이지 않는 기초 공사."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
청킹(Chunking)은 대규모 문서를 검색과 추론에 용이하도록 작은 단위로 분할하는 과정입니다.
|
||||
|
||||
1. **청킹 전략**:
|
||||
* **Fixed-size Chunking**: 고정된 글자 수나 토큰 수로 나눕니다. 빠르지만 문장 중간이 잘리는 등 맥락 파괴 위험이 큽니다.
|
||||
* **Recursive Character Chunking**: 문단, 문장, 단어 단위로 우선순위를 두어 논리적 구조를 유지하며 나눕니다.
|
||||
* **Semantic Chunking**: 문장 간의 의미적 유사도를 측정하여, 주제가 바뀌는 지점에서 문서를 나눕니다.
|
||||
* **Agentic Chunking**: 에이전트가 문서를 읽고 의미 단위를 판단하여 최적의 지점에서 분할합니다.
|
||||
2. **전처리 (Pre-processing)**:
|
||||
* **Cleaning**: 불필요한 특수문자, HTML 태그, 중복 텍스트를 제거합니다.
|
||||
* **Metadata 주입**: 각 청크에 제목, 요약, 출처, 관련 키워드 등을 태깅하여 검색 효율을 높입니다.
|
||||
3. **Overlap (중첩)**:
|
||||
* 청크와 청크 사이에 일정 부분을 겹치게 하여(예: 10% 중첩), 잘린 문장의 맥락이 양쪽 청크 모두에 유지되도록 합니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **청크 크기 딜레마**: 너무 작으면 맥락이 부족하고(Lack of context), 너무 크면 검색 결과에 노이즈가 많아지며 모델의 컨텍스트 윈도우를 낭비하게 됩니다.
|
||||
* **연산 비용**: Semantic Chunking이나 Agentic Chunking은 모델 호출이 필요하므로 처리 비용과 시간이 증가합니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 시스템**: [[Retrieval-Augmented Generation (RAG)|Retrieval-Augmented Generation (RAG)]]
|
||||
* **하위 시스템**: [[Vector Databases & Search|Vector Databases & Search]], [[Embedding Models & MRL|Embedding Models & MRL]]
|
||||
* **연관 현상**: [[Lost in the middle|Lost in the middle]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,40 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-CWLC-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, context-window, long-context-llm, niah, ruler, infinite-context]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Context Window & Long-Context LLMs|Context Window & Long-Context LLMs]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "지능의 시야: 모델이 한 번에 보고 이해할 수 있는 정보의 양을 의미하며, 수천 토큰에서 수백만 토큰으로 확장되는 과정은 AI가 단순한 도구를 넘어 '전체 리포지토리'나 '책 수십 권'을 통째로 이해하는 전문가로 진화하는 과정."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
컨텍스트 윈도우(Context Window)는 LLM이 한 번에 처리할 수 있는 최대 토큰 수를 의미하며, 이를 확장하는 것은 현대 AI 연구의 핵심 과제입니다.
|
||||
|
||||
1. **발전 단계**:
|
||||
* **초기**: 2,048 ~ 4,096 토큰 (짧은 대화 위주).
|
||||
* **과기**: 32,000 ~ 128,000 토큰 (긴 문서 분석 가능).
|
||||
* **현재**: 100만(1M) ~ 1,000만(10M) 토큰 이상 (전체 코드베이스, 수 시간의 영상 분석 가능).
|
||||
2. **평가 지표**:
|
||||
* **Needle In A Haystack (NIAH)**: 거대한 정보(건초더미) 속에 숨겨진 작은 정보(바늘)를 모델이 얼마나 정확하게 찾아내는지 테스트합니다.
|
||||
* **RULER**: 단순 검색을 넘어, 긴 문맥 속에서 복잡한 추론과 요약 능력을 종합적으로 평가하는 최신 벤치마크입니다.
|
||||
3. **한계 극복 기술**:
|
||||
* **아키텍처 최적화**: [[Attention Mechanisms|FlashAttention]], [[Sparse Attention|Sparse Attention]].
|
||||
* **메모리 관리**: [[Key-Value (KV) Cache|KV Cache]] 최적화 및 [[PagedAttention|PagedAttention]].
|
||||
* **위치 인코딩 확장**: [[Positional Embeddings (RoPE & Variants)|RoPE, YaRN]] 등을 통한 학습 범위를 넘어서는 컨텍스트 확장.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **Lost in the middle**: 컨텍스트가 길어질수록 모델이 앞부분과 뒷부분의 정보는 잘 기억하지만, 중간에 위치한 정보는 무시하거나 잊어버리는 현상이 발생합니다.
|
||||
* **연산 비용 폭발**: 어텐션 연산은 시퀀스 길이의 제곱($O(n^2)$)에 비례하므로, 컨텍스트가 2배 늘어나면 연산량과 메모리는 4배로 증가합니다.
|
||||
* **정확도 하락**: 컨텍스트 창은 크지만, 실제 내부 정보에 대한 이해도(Recall)가 떨어지는 '가짜 컨텍스트 확장' 모델을 경계해야 합니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **기술적 기반**: [[Positional Embeddings (RoPE & Variants)|Positional Embeddings]], [[Attention Mechanisms|Attention Mechanisms]]
|
||||
* **물리적 제약**: [[KV Cache|KV Cache]], [[GPU Infrastructure|GPU Infrastructure]]
|
||||
* **해결 전략**: [[Retrieval-Augmented Generation (RAG)|RAG]], [[Lost in the Middle & Context Rot|Lost in the Middle & Context Rot]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,39 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-DFWK-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, vllm, tensorrt-llm, ollama, serving, inference-engine]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Deployment Frameworks|Deployment Frameworks]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "최신 AI 기술의 실전 배치 사령부: 연구 단계의 모델을 실제 서비스가 가능한 수준으로 가속하고, 수천 명의 동시 접속자를 감당할 수 있도록 인프라와 소프트웨어를 연결하는 고성능 추론 엔진."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
다양한 하드웨어 환경에서 LLM을 효율적으로 구동하고 서빙하기 위한 최적화된 프레임워크들입니다.
|
||||
|
||||
1. **[[vLLM|vLLM]]**:
|
||||
* **강점**: [[PagedAttention|PagedAttention]] 기술의 선구자로, 메모리 효율성과 처리량(Throughput)이 매우 뛰어납니다. 오픈소스 커뮤니티에서 가장 널리 사용됩니다.
|
||||
* **적합**: 범용적인 LLM 서빙, 다중 사용자 요청 처리.
|
||||
2. **TensorRT-LLM (NVIDIA)**:
|
||||
* **강점**: NVIDIA 하드웨어에 최적화된 저수준 가속 라이브러리입니다. C++ 기반의 강력한 성능과 고도의 커널 최적화를 제공합니다.
|
||||
* **적합**: 엔터프라이즈 급 고성능 서비스, NVIDIA 전용 클라우드 인프라.
|
||||
3. **Ollama**:
|
||||
* **강점**: 복잡한 설정 없이 로컬 PC(macOS, Linux, Windows)에서 LLM을 즉시 실행할 수 있게 해주는 사용자 친화적 도구입니다.
|
||||
* **적합**: 로컬 개발, 개인용 AI 어시스턴트, 경량 테스트 환경.
|
||||
4. **TGI (Text Generation Inference)**:
|
||||
* **강점**: Hugging Face에서 개발한 프로덕션용 추론 엔진으로, 안정성과 다양한 모델 지원이 특징입니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **유연성 vs 성능**: Ollama는 사용하기 매우 쉽지만 미세한 튜닝이 어렵고, TensorRT-LLM은 성능은 최강이지만 빌드 과정과 설정이 매우 복잡합니다.
|
||||
* **하드웨어 종속성**: TensorRT-LLM은 NVIDIA GPU에서만 작동하며, vLLM은 AMD GPU 지원을 확장 중이지만 여전히 NVIDIA 최적화가 주를 이룹니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **핵심 기술**: [[PagedAttention|PagedAttention]], [[Continuous Batching|Continuous Batching]], [[Quantization|Quantization]]
|
||||
* **관련 인프라**: [[GPU Infrastructure|GPU Infrastructure]], [[Docker|Docker]]
|
||||
* **프로젝트 적용**: 로컬 개발용 에이전트([[Ollama|Ollama]]), 고성능 RAG 서빙 엔진([[vLLM|vLLM]])
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,36 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-DPRC-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, context-parallelism, sequence-parallelism, distributed-training, deepspeed, ring-attention]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Distributed Processing (Context & Sequence Parallelism)|Distributed Processing (Context & Sequence Parallelism)]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "거대 모델의 분업 원칙: 단일 GPU의 메모리 한계를 넘기 위해, 모델을 쪼개는 것을 넘어 '문장(Sequence)' 자체를 여러 장치에 나누어 처리하고 광속으로 데이터를 주고받는 분산 연산의 정수."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
거대 언어 모델을 학습하거나 추론할 때, 시퀀스 길이와 파라미터 수에 따른 메모리 한계를 극복하기 위한 분산 처리 기술입니다.
|
||||
|
||||
1. **Context Parallelism (컨텍스트 병렬화)**:
|
||||
* **원리**: 입력된 긴 문장(시퀀스)을 여러 조각으로 나누어 각각 다른 GPU에서 처리하게 합니다.
|
||||
* **의의**: [[Ring Attention|Ring Attention]]과 같은 기술을 통해 GPU 간에 데이터를 순환시키며, 단일 GPU로는 불가능한 백만 토큰 이상의 처리를 가능하게 합니다.
|
||||
2. **Sequence Parallelism (시퀀스 병렬화)**:
|
||||
* **원리**: 행렬 연산 이외의 부분(Layer Norm, Dropout 등)에서 발생하는 중복된 메모리 점유를 줄이기 위해 시퀀스 차원을 따라 데이터를 분할합니다.
|
||||
* **효과**: 텐서 병렬화([[Tensor Parallelism|Tensor Parallelism]])와 결합하여 메모리 효율을 극대화합니다.
|
||||
3. **USP (Unified Sequence Parallelism)**:
|
||||
* DeepSpeed Ulysses와 Ring Attention의 장점을 결합하여, 통신 패턴을 최적화하고 초장거리 문맥 학습 성능을 극대화하는 최신 하이브리드 접근법입니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **통신 오버헤드**: 데이터를 나누어 처리하는 만큼 GPU 간에 빈번한 통신이 발생합니다. [[NVLink|NVLink]]와 같은 고속 네트워크 인프라가 뒷받침되지 않으면 오히려 연산보다 통신 대기 시간이 길어져 성능이 급감합니다.
|
||||
* **복잡한 인프라 관리**: 수십~수백 대의 GPU 클러스터를 정밀하게 동기화하고 관리해야 하므로 엔지니어링 난이도가 매우 높습니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **물리적 기반**: [[GPU Infrastructure|GPU Infrastructure]], [[NVLink|NVLink]], [[InfiniBand|InfiniBand]]
|
||||
* **핵심 알고리즘**: [[Ring Attention|Ring Attention]], [[Attention Mechanisms|Attention Mechanisms]]
|
||||
* **연관 기술**: [[Tensor Parallelism|Tensor Parallelism]], [[DeepSpeed|DeepSpeed]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,35 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-EMRL-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, embedding-models, mrl, dimensionality-reduction, vector-compression]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Embedding Models & MRL|Embedding Models & MRL]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "데이터의 지도 제작자: 복잡한 현실 세계의 정보를 의미적 거리가 유지되는 수학적 공간에 배치하고, 특히 MRL을 통해 중요한 정보만 벡터의 앞쪽에 농축하여 효율과 성능의 조화를 이루어낸 기술."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
임베딩 모델은 텍스트나 이미지 같은 데이터를 고차원 벡터로 변환하는 핵심 인공지능 모델이며, MRL은 이를 더욱 효율적으로 사용하는 최신 기법입니다.
|
||||
|
||||
1. **임베딩 모델 (Embedding Models)**:
|
||||
* **역할**: 단어의 단순 매칭을 넘어, "왕"과 "군주"가 비슷한 의미임을 수학적으로 이해하게 합니다.
|
||||
* **발전**: 텍스트뿐만 아니라 이미지와 텍스트를 동시에 이해하는 멀티모달(Multimodal) 임베딩으로 진화하고 있습니다.
|
||||
2. **MRL (Matryoshka Representation Learning)**:
|
||||
* **원리**: 마트료시카 인형처럼, 벡터의 앞쪽 차원(예: 3072차원 중 앞쪽 256차원)만 잘라내어 사용해도 대부분의 의미를 보존하도록 모델을 훈련합니다.
|
||||
* **장점**: 저장 공간을 10배 이상 절감하면서도 검색 품질 손실을 1% 미만으로 억제할 수 있습니다.
|
||||
* **주요 지원 모델**: OpenAI text-embedding-3, Voyage-3, Gemini embedding-001.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **차원 축소의 한계**: 차원을 과하게 줄이면 미세한 의미 차이(Nuance)를 구분하는 능력이 떨어집니다.
|
||||
* **모델 종속성**: MRL 효과는 해당 기법으로 특수하게 훈련된 모델에서만 발휘됩니다. 일반 모델의 벡터를 그냥 잘라 쓰면 성능이 급격히 파괴됩니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **하위 시스템**: [[Vector Databases & Search|Vector Databases & Search]]
|
||||
* **최적화 기술**: [[Quantization|Quantization]], [[Model Compression & Quantization|Model Compression & Quantization]]
|
||||
* **적용 사례**: 대규모 RAG 시스템, 로컬 [[Second Brain|Second Brain]] 인프라
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,40 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-FTAL-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, fine-tuning, alignment, sft, rlhf, dpo, llm-training]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Fine-Tuning & Alignment|Fine-Tuning & Alignment]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "야생의 모델을 신사로 만드는 과정: 방대한 지식을 배운 사전 학습(Pre-training) 모델에게 인간의 언어 규범과 지시 이행 능력을 가르치고, 가치관을 정렬하여 실질적으로 '사용 가능한' 도구로 완성하는 정교한 조각 기술."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
거대 언어 모델(LLM)의 성능을 극대화하고 특정 목적에 맞게 조정하기 위해 필수적인 후속 학습 및 정렬 프로세스입니다.
|
||||
|
||||
1. **SFT (Supervised Fine-Tuning)**:
|
||||
* **정의**: 고품질의 [질문, 답변] 쌍을 사용하여 모델이 지시사항(Instruction)을 따르는 법을 배우게 하는 단계입니다.
|
||||
* **역할**: 모델이 가진 지식을 꺼내는 '말문'을 틔워주며, 특정 문체나 형식을 습득시킵니다.
|
||||
2. **RLHF (Reinforcement Learning from Human Feedback)**:
|
||||
* **정의**: 인간의 선호도(Preference)를 반영하여 모델을 더 유용하고 안전하게 정렬하는 기술입니다.
|
||||
* **프로세스**: [SFT] $\rightarrow$ [Reward Model 학습] $\rightarrow$ [PPO 등 강화학습 알고리즘으로 모델 최적화].
|
||||
3. **DPO (Direct Preference Optimization)**:
|
||||
* **정의**: 복잡한 보상 모델과 강화학습 루프 없이, 선호도 데이터를 사용하여 직접 모델을 최적화하는 효율적인 대안 기법입니다.
|
||||
* **장점**: 파이프라인이 단순하고 학습이 안정적이며, 최신 Llama 시리즈 등 주요 모델의 표준 정렬 방식으로 채택되었습니다.
|
||||
4. **Grokking (그로킹)**:
|
||||
* 훈련 데이터 암기(과적합) 상태를 넘어, 어느 순간 갑자기 데이터 이면의 실제 규칙(알고리즘)을 깨우치며 일반화 성능이 폭발하는 현상을 의미합니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **Catastrophic Forgetting (파괴적 망각)**: 특정 작업에 대해 너무 강하게 미세 조정할 경우, 모델이 원래 가지고 있던 일반적인 상식이나 다른 능력을 잃어버릴 수 있습니다.
|
||||
* **Alignment Tax (정렬세)**: 모델을 너무 안전하게만 정렬(Over-alignment)하면, 정당한 질문에도 "답변할 수 없습니다"라고 거절하거나 창의성이 감소하는 부작용이 발생합니다.
|
||||
* **Smiling Facade**: RLHF가 모델의 내부적인 결함을 고치는 것이 아니라, 겉으로만 그럴듯한 답변을 내놓게 하는 '가면'을 씌우는 것일 수 있다는 비판적 시각이 존재합니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[LLM Training Pipeline|LLM Training Pipeline]]
|
||||
* **세부 기술**: [[PEFT & LoRA|PEFT & LoRA]], [[RLHF & DPO|RLHF & DPO]], [[Constitutional AI|Constitutional AI]]
|
||||
* **연관 모델**: [[DeepSeek-R1|DeepSeek-R1]], [[Claude|Claude]], [[Llama|Llama]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,37 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-GPUF-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, gpu-infrastructure, hbm, nvlink, infiniband, distributed-computing]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[GPU Infrastructure|GPU Infrastructure]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "거대 지능을 지탱하는 신경망과 근육: 초당 테라바이트급의 데이터를 쏟아내는 메모리(HBM)와 GPU들을 광속으로 연결하는 신경망(NVLink)이 결합된, 현대 AI의 물리적 육체."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
거대 언어 모델의 학습과 초장거리 문맥 처리를 가능하게 하는 물리적 하드웨어 아키텍처의 핵심 요소들입니다.
|
||||
|
||||
1. **HBM (High Bandwidth Memory)**:
|
||||
* **정의**: GPU 칩 옆에 수직으로 쌓아 올린 초고속 적층형 메모리입니다.
|
||||
* **의의**: 일반 GDDR 메모리보다 대역폭이 압도적으로 넓어, 어텐션 연산 시 발생하는 데이터 병목 현상을 해결하는 결정적 요소입니다.
|
||||
2. **NVLink**:
|
||||
* **정의**: 동일 서버 내의 GPU들을 서로 연결하는 NVIDIA의 전용 초고속 인터커넥트 기술입니다.
|
||||
* **역할**: 수천억 개의 파라미터를 여러 GPU에 나누어 학습할 때(모델 병렬화), GPU 간의 데이터 교환 속도를 극대화하여 통신 지연을 최소화합니다.
|
||||
3. **InfiniBand**:
|
||||
* **정의**: 서버와 서버 사이(노드 간)를 연결하는 데이터센터 급 초고속 네트워크 기술입니다.
|
||||
* **의의**: 수천 대의 GPU를 하나의 거대한 클러스터로 묶어 거대 모델을 학습시킬 때, 네트워크 병목 없이 데이터를 전송할 수 있게 합니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **비용 및 전력**: 최신 HBM3e와 NVLink가 탑재된 GPU 시스템(예: NVIDIA HGX)은 대당 수억 원을 호가하며, 막대한 전력을 소모합니다.
|
||||
* **통신 병목**: 아무리 GPU 연산이 빨라도 NVLink나 InfiniBand의 대역폭이 이를 따라가지 못하면, GPU가 데이터를 기다리며 노는 유휴 상태(Waiting)가 발생하여 전체 효율이 급감합니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[Distributed Training|Distributed Training]], [[Hardware Acceleration|Hardware Acceleration]]
|
||||
* **관련 기술**: [[Context Parallelism|Context Parallelism]], [[Ring Attention|Ring Attention]], [[Flash Attention|Flash Attention]]
|
||||
* **장치**: NVIDIA H100/H200, B100/B200 (Blackwell)
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,38 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-IFOP-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, inference-optimization, speculative-decoding, continuous-batching, throughput]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[LLM Inference Optimization|LLM Inference Optimization]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "대기 시간과의 전쟁: 모델 아키텍처, 커널 연산, 배치 전략 등 모든 계층을 쥐어짜내어 사용자에게는 더 빠른 응답(Low Latency)을, 서버 운영자에게는 더 많은 처리량(High Throughput)을 제공하는 기술적 마법."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
실제 서비스 환경에서 LLM의 응답 속도를 높이고 운영 비용을 절감하기 위한 종합적인 최적화 기법들입니다.
|
||||
|
||||
1. **Speculative Decoding (추측 기반 디코딩)**:
|
||||
* **원리**: 작고 빠른 모델(Draft Model)이 미리 여러 토큰을 예측하고, 큰 모델(Target Model)이 이를 한꺼번에 검증합니다.
|
||||
* **효과**: 정확도는 그대로 유지하면서 생성 속도를 2~3배 이상 향상시킵니다.
|
||||
2. **Continuous Batching (연속 배치)**:
|
||||
* **원리**: 모든 요청이 끝날 때까지 기다리는 것이 아니라, 각 요청의 토큰 생성이 끝나는 즉시 새로운 요청을 배치에 투입합니다.
|
||||
* **의의**: GPU의 유휴 시간을 없애고 전체 시스템의 처리량(Throughput)을 수 배 이상 높입니다.
|
||||
3. **커널 최적화 (Kernel Optimization)**:
|
||||
* **FlashAttention**: 메모리 읽기/쓰기를 줄여 어텐션 연산을 가속합니다.
|
||||
* **PagedAttention**: 메모리 단편화를 제거하여 KV 캐시 활용률을 극대화합니다.
|
||||
4. **Inference-time Compute**:
|
||||
* 추론 모델([[Reasoning Models|Reasoning Models]])의 경우, 더 많은 사고 과정을 거치게 하여 답변의 품질을 높이는 대신 속도를 절충하는 최신 트렌드입니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **Latency vs Throughput**: 개별 요청의 속도를 높이는 기술(Speculative Decoding)과 시스템 전체의 양을 늘리는 기술(Batching) 사이에는 하드웨어 자원 분배의 트레이드오프가 존재합니다.
|
||||
* **추가 메모리 소모**: Speculative Decoding을 위해 보조 모델을 추가로 메모리에 올려야 하므로 VRAM 여유가 필요합니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **핵심 기술**: [[Key-Value (KV) Cache|KV Cache]], [[Flash Attention|Flash Attention]], [[Model Compression & Quantization|Model Compression & Quantization]]
|
||||
* **프레임워크**: [[vLLM|vLLM]], [[TensorRT-LLM|TensorRT-LLM]], [[Ollama|Ollama]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,38 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-LIMC-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, lost-in-the-middle, context-rot, long-context-failure, attention-dilution]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Lost in the Middle & Context Rot|Lost in the Middle & Context Rot]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "정보의 늪: 아무리 넓은 시야(Context Window)를 가졌어도, 정작 중요한 정보가 중간에 묻혀있으면 찾아내지 못하거나 시간이 지날수록 맥락이 오염되어 헛소리를 하는 지능의 물리적 한계."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
거대 언어 모델이 긴 문맥을 처리할 때 발생하는 인지적 성능 저하 현상들입니다.
|
||||
|
||||
1. **Lost in the middle (중간 정보 유실)**:
|
||||
* **현상**: 모델이 프롬프트의 맨 앞부분과 맨 뒷부분의 정보는 잘 활용하지만, 중간에 위치한 정보에 대해서는 재현율(Recall)이 급격히 떨어지는 현상입니다.
|
||||
* **원인**: 트랜스포머 아키텍처의 어텐션 메커니즘이 수천 수만 개의 토큰 사이에서 중요도를 배분할 때 발생하는 수치적, 구조적 한계 때문입니다.
|
||||
2. **Context Rot (컨텍스트 부패)**:
|
||||
* **현상**: 대화가 길어지거나 추론 단계가 반복될수록, 이전의 중요한 지침이나 사실 관계가 희석되고 새로운(가끔은 잘못된) 토큰들에 의해 맥락이 오염되는 현상입니다.
|
||||
* **영향**: 에이전트가 초기 목표를 잊어버리거나 동일한 답변을 반복하는 루프에 빠지게 만듭니다.
|
||||
3. **해결 전략**:
|
||||
* **정보 재배치**: 가장 중요한 근거 데이터를 프롬프트의 맨 앞이나 맨 뒤에 전략적으로 배치합니다.
|
||||
* **[[Agentic RAG|Agentic RAG]]**: 전체를 주입하는 대신 핵심 청크만 골라내어 전달함으로써 모델의 인지 부하를 줄입니다.
|
||||
* **[[KV Cache Compression|KV Cache Compression]]**: 중요한 토큰 위주로 캐시를 보존하여 맥락의 선명도를 유지합니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **물리적 크기 vs 실질 지능**: 컨텍스트 창이 100만 토큰이라고 광고하는 모델이라도, 중간 정보 유실 문제 때문에 실제로는 10만 토큰 이상의 정보를 한꺼번에 처리하기 힘들 수 있습니다.
|
||||
* **프롬프트 엔지니어링의 한계**: 단순히 지시사항을 반복하는 것만으로는 이 근본적인 아키텍처적 한계를 완벽히 극복하기 어렵습니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[Context Window & Long-Context LLMs|Context Window & Long-Context LLMs]]
|
||||
* **관련 지표**: [[Needle In A Haystack (NIAH)|Needle In A Haystack (NIAH)]]
|
||||
* **연관 기술**: [[Attention Mechanisms|Attention Mechanisms]], [[Agentic RAG|Agentic RAG]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,36 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-MCIS-001
|
||||
category: Unified
|
||||
confidence_score: 0.95
|
||||
tags: [auto-reinforced, mechanistic-interpretability, steering-vectors, sae, sparse-autoencoders, model-understanding]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Mechanistic Interpretability & Steering|Mechanistic Interpretability & Steering]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "지능의 역공학: 블랙박스로 여겨졌던 AI의 내부 신경망을 해부하여 특정 뉴런이 어떤 개념(예: '정직', '코딩')을 담당하는지 찾아내고, 이를 직접 조절(Steering)하여 모델의 성격이나 능력을 실시간으로 바꾸는 기술."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
기계적 해석 가능성(Mechanistic Interpretability)은 모델의 내부 작동 원리를 뉴런 단위에서 이해하려는 학문이며, 스티어링(Steering)은 그 이해를 바탕으로 모델을 제어하는 기술입니다.
|
||||
|
||||
1. **SAE (Sparse Autoencoders)**:
|
||||
* **원리**: 모델의 수억 개 뉴런 속에 복합적으로 얽혀 있는 개념들을 분리하여, 인간이 이해할 수 있는 단일 개념(Feature)으로 추출하는 기술입니다.
|
||||
* **의의**: "이 뉴런 그룹은 '골든게이트 교량'에 반응한다"와 같은 구체적인 지도를 그릴 수 있게 합니다. (Anthropic의 연구 사례)
|
||||
2. **Steering Vectors (스티어링 벡터)**:
|
||||
* **개념**: 특정 개념(예: '무해함', '논리적 추론')과 관련된 신경망의 활성화 패턴을 추출하여 벡터로 만듭니다.
|
||||
* **활용**: 추론 시 이 벡터를 모델의 중간 레이어에 주입(Injection)하여, 모델이 더 정직하게 답하게 하거나 특정 주제에 집중하게 유도할 수 있습니다.
|
||||
3. **Superposition (중첩)**:
|
||||
* 모델이 제한된 뉴런 수로 방대한 지식을 저장하기 위해, 하나의 뉴런이 여러 개념에 동시에 관여하는 현상입니다. 해석 가능성 연구는 이 중첩을 해소하는 것이 주된 목표입니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **성능 저하**: 특정 개념을 너무 강하게 스티어링하면 모델의 일반적인 언어 능력이 망가지거나 답변이 부자연스러워질 수 있습니다.
|
||||
* **복잡성**: 거대 모델의 모든 개념을 완벽히 해석하는 것은 여전히 초보적인 단계이며, 막대한 연산량이 필요합니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[AI Safety & Constitutional AI|AI Safety & Constitutional AI]], [[Deep Learning Theory|Deep Learning Theory]]
|
||||
* **관련 연구**: Anthropic (Golden Gate Claude), OpenAI (Microscope)
|
||||
* **연관 기술**: [[Fine-Tuning & Alignment|Fine-Tuning & Alignment]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,38 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-MOES-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, moe, mixture-of-experts, sparse-architecture, routing, compute-efficiency]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Mixture of Experts (MoE) & Sparse Architectures|Mixture of Experts (MoE) & Sparse Architectures]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "지능의 분업화: 거대한 지식을 가진 수많은 전문가들을 모델 안에 배치하고, 매 순간 필요한 소수의 전문가만 활성화함으로써 모델의 크기는 키우되 연산 비용은 낮게 유지하는 경제적 지능 설계."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
MoE(Mixture of Experts)는 모델의 전체 파라미터 중 일부만 연산에 참여시키는 희소(Sparse) 모델 설계 방식입니다.
|
||||
|
||||
1. **핵심 원리**:
|
||||
* **Experts (전문가)**: 모델 내부의 FFN 계층을 여러 개의 독립된 '전문가' 네트워크로 나눕니다.
|
||||
* **Router (라우터)**: 입력된 토큰별로 가장 적합한 전문가(보통 상위 1~2개)를 선택하여 연산을 보냅니다.
|
||||
* **Shared Experts (공유 전문가)**: 특정 모델(예: DeepSeek)은 모든 토큰이 공통적으로 거치는 '공유 전문가'를 두어 지식의 기초를 다집니다.
|
||||
2. **주요 장점**:
|
||||
* **연산 효율성**: 전체 파라미터가 1조 개(1T)라도 추론 시에는 수십억 개만 사용하므로 속도가 빠릅니다.
|
||||
* **확장성**: 동일한 컴퓨팅 자원으로 더 방대한 지식을 담은 모델을 구축할 수 있습니다.
|
||||
3. **대표적 모델**:
|
||||
* GPT-4 (알려진 바에 따르면 MoE 아키텍처), Mixtral 8x7B, DeepSeek-V3.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **VRAM 점유**: 추론 연산은 적게 하지만, 모든 전문가의 가중치를 메모리에 올려두어야 하므로 요구되는 VRAM 용량은 모델의 전체 크기만큼 큽니다.
|
||||
* **전문가 붕괴 (Expert Collapse)**: 라우터가 특정 전문가에게만 일을 몰아주어 나머지 전문가들이 학습되지 않는 현상이 발생할 수 있습니다. 이를 방지하기 위한 부하 분산(Load Balancing) 기술이 필수적입니다.
|
||||
* **배포 복잡성**: 전문가들을 여러 GPU에 분산 배치하고 동기화하는 과정이 일반 모델보다 훨씬 까다롭습니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **기반 구조**: [[Transformer Architecture|Transformer Architecture]]
|
||||
* **연관 기술**: [[Routing Mechanism|Routing Mechanism]], [[Sparse Attention|Sparse Attention]]
|
||||
* **경쟁 구조**: Dense Models (Llama 3 등)
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,38 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-MCOQ-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, quantization, compression, fp8, int4, awq, gptq, gguf]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Model Compression & Quantization|Model Compression & Quantization]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "지능의 고농축: 모델의 가중치를 표현하는 숫자의 정밀도를 낮추어(FP16 -> INT4), 성능 저하는 최소화하면서도 메모리 사용량과 연산 속도를 획기적으로 개선하는 하이엔드 최적화 공법."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
거대 모델을 일반 하드웨어에서 구동하거나 추론 효율성을 높이기 위해 모델의 크기를 줄이는 핵심 기술입니다.
|
||||
|
||||
1. **양자화 (Quantization)**:
|
||||
* **정의**: 가중치를 표현하는 비트 수를 줄이는 과정입니다. (예: 16비트 부동소수점 $\rightarrow$ 4비트 정수)
|
||||
* **효과**: 메모리 사용량이 약 4배 감소하며, 더 큰 모델을 더 작은 GPU에 올릴 수 있게 합니다.
|
||||
2. **주요 정밀도 포맷**:
|
||||
* **FP8**: 최신 H100/B200 GPU에서 지원하며, 속도와 정확도의 최적 균형을 제공합니다.
|
||||
* **INT4/INT8**: 전통적인 양자화 방식으로, 모바일이나 엣지 디바이스에서도 널리 쓰입니다.
|
||||
* **NF4 (NormalFloat 4)**: QLoRA에서 사용되는 특수 포맷으로, 가중치 분포에 최적화된 양자화를 제공합니다.
|
||||
3. **대표 알고리즘 & 포맷**:
|
||||
* **AWQ / GPTQ**: 추론 속도와 정확도를 모두 잡은 데이터 인식(Data-aware) 양자화 기법입니다.
|
||||
* **GGUF / EXL2**: llama.cpp 등 CPU나 로컬 환경에서 LLM을 구동하기 위해 널리 사용되는 포맷입니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **정확도 하락 (Precision Loss)**: 비트 수를 너무 과하게 줄이면 모델의 논리 전개 능력이 떨어지거나 환각이 증가할 수 있습니다. (특히 3비트 이하에서 두드러짐)
|
||||
* **하드웨어 호환성**: FP8과 같은 최신 포맷은 구형 GPU(RTX 30 시리즈 이하)에서는 가속 효과가 미미하거나 작동하지 않을 수 있습니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[LLM Inference Optimization|LLM Inference Optimization]]
|
||||
* **연관 기술**: [[PEFT & LoRA|PEFT & LoRA]] (QLoRA), [[Deployment Frameworks|Deployment Frameworks]]
|
||||
* **주요 툴**: bitsandbytes, AutoAWQ, llama.cpp
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,39 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-MCPR-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, mcp, model-context-protocol, anthropic, standardization, tool-integration]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Model Context Protocol (MCP)|Model Context Protocol (MCP)]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "AI 시대의 USB 표준: 파편화된 수많은 앱과 데이터 소스들을 모델과 연결하는 단일 규격을 제시함으로써, 복잡한 커스텀 개발 없이도 어떤 도구든 즉시 에이전트에 통합할 수 있게 만든 생태계의 교량."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
Model Context Protocol(MCP)은 AI 에이전트가 다양한 외부 데이터 소스 및 도구와 통신하기 위한 개방형 표준 프로토콜입니다.
|
||||
|
||||
1. **등장 배경**:
|
||||
* 기존에는 각 앱(Slack, Google Drive, GitHub 등)마다 별도의 API 연동 코드를 작성해야 했습니다.
|
||||
* MCP는 이러한 '파편화'를 해결하기 위해, 모든 도구가 동일한 방식으로 자신의 기능을 모델에게 노출할 수 있는 표준을 제공합니다.
|
||||
2. **핵심 아키텍처**:
|
||||
* **MCP Server**: 데이터 소스나 도구를 MCP 규격에 맞게 노출하는 서버.
|
||||
* **MCP Client**: 에이전트(예: Claude Desktop, Antigravity Astra)가 서버에 연결하여 도구를 사용합니다.
|
||||
* **Standardization**: USB-C 표준처럼, 한번 MCP 서버를 구축하면 모든 MCP 지원 클라이언트에서 즉시 사용 가능합니다.
|
||||
3. **주요 이점**:
|
||||
* **개발 생산성**: 복잡한 통합 코드 작성 없이 표준 서버만 연결하면 됩니다.
|
||||
* **보안**: 데이터에 직접 접근하는 대신 표준 프로토콜을 통해 제어된 방식으로 정보를 주고받습니다.
|
||||
* **확장성**: 오픈 표준(Linux Foundation 기증)으로서 수많은 써드파티 도구들이 MCP 생태계로 빠르게 편입되고 있습니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **초기 오버헤드**: 기존 레거시 시스템을 MCP 규격에 맞게 래핑(Wrapping)하는 서버 개발이 필요합니다.
|
||||
* **지연 시간**: 프로토콜 계층이 하나 더 추가되므로, 아주 미세한 지연 시간이 발생할 수 있습니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[Autonomous Agents & Workflows|Autonomous Agents & Workflows]], [[Tool Use & Function Calling|Tool Use & Function Calling]]
|
||||
* **연관 지표**: [[MCP-Atlas|MCP-Atlas]] (MCP 성능 벤치마크)
|
||||
* **관련 모델**: Claude (MCP의 최초 제안 및 선도적 적용)
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,38 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-PELR-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, peft, lora, qlora, fine-tuning-optimization, vram-efficiency]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[PEFT & LoRA|PEFT & LoRA]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "최소한의 변경으로 최대의 효과: 거대 모델의 수십억 개 파라미터를 전부 건드리는 대신, 아주 작은 어댑터(Adapter)만 학습시켜 개인용 PC에서도 최신 AI를 튜닝할 수 있게 만든 효율성의 극치."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
PEFT(Parameter-Efficient Fine-Tuning)는 모델의 전체 가중치를 업데이트하지 않고 극히 일부의 파라미터만 학습시키는 미세 조정 기술의 총칭입니다.
|
||||
|
||||
1. **LoRA (Low-Rank Adaptation)**:
|
||||
* **원리**: 모델의 가중치 행렬($W$)을 그대로 두는 대신, 두 개의 작은 저차원 행렬($A, B$)의 곱으로 표현되는 변화량($\Delta W$)만 학습합니다.
|
||||
* **장점**: 학습 파라미터 수를 10,000배 이상 줄이면서도 전체 가중치 미세 조정과 대등한 성능을 냅니다. 학습 후 기존 모델에 쉽게 병합(Merge)할 수 있습니다.
|
||||
2. **QLoRA (Quantized LoRA)**:
|
||||
* **원리**: 기본 모델을 4비트로 양자화(Quantization)하여 VRAM에 올리고, 그 위에 LoRA를 적용합니다.
|
||||
* **의의**: 단일 24GB GPU(RTX 3090/4090)에서도 65B(650억 개 파라미터) 이상의 거대 모델을 미세 조정할 수 있게 한 혁신적 기술입니다.
|
||||
3. **기타 PEFT 기법**:
|
||||
* **Prefix Tuning**: 입력 앞에 학습 가능한 가상 토큰(Prefix)을 추가합니다.
|
||||
* **Prompt Tuning**: 프롬프트의 임베딩 공간 일부를 학습 가능하게 만듭니다.
|
||||
* **Adapter Tuning**: 기존 트랜스포머 레이어 사이에 작은 병목 레이어를 삽입합니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **추론 지연**: 어댑터(Adapter) 방식의 경우 추론 시 추가 연산이 필요하여 속도가 소폭 느려질 수 있습니다 (LoRA는 병합을 통해 해결 가능).
|
||||
* **복잡한 작업의 한계**: 아주 방대하거나 복잡한 지식을 새롭게 주입해야 하는 경우, 전체 가중치 미세 조정(Full Fine-Tuning)에 비해 성능이 다소 떨어질 수 있습니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[Fine-Tuning & Alignment|Fine-Tuning & Alignment]]
|
||||
* **연관 기술**: [[Quantization|Quantization]], [[LLM Architecture|LLM Architecture]]
|
||||
* **주요 라이브러리**: Hugging Face PEFT, Unsloth, Axolotl
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,37 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-PKMA-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, pkm, second-brain, obsidian, knowledge-management, ai-assistant]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Personal Knowledge Management (PKM) & AI|Personal Knowledge Management (PKM) & AI]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "지식의 증폭기: 개인의 파편화된 생각과 기록들을 AI가 이해할 수 있는 디지털 정원(Obsidian 등)으로 가꾸고, 이를 로컬 LLM과 연결하여 나보다 나를 더 잘 아는 '두 번째 뇌'를 구축하는 기술적 실천."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
PKM(개인 지식 관리)은 AI 시대에 접어들며 단순한 기록 보관을 넘어, AI 에이전트의 핵심 컨텍스트 저장소로 진화하고 있습니다.
|
||||
|
||||
1. **Obsidian (옵시디언)**:
|
||||
* **특징**: 마크다운 기반의 로컬 우선(Local-first) 지식 관리 도구입니다. 데이터 주권(Data Sovereignty)을 지키면서 AI와 연결하기 가장 적합한 플랫폼입니다.
|
||||
* **강점**: 노트 간의 연결을 시각화하는 [[Knowledge Graph|Knowledge Graph]] 기능을 통해 정보 간의 관계를 한눈에 파악할 수 있습니다.
|
||||
2. **AI와의 결합 (Local RAG)**:
|
||||
* **원리**: 사용자의 전체 노트를 [[Vector Database|Vector Database]]로 인덱싱하고, [[Ollama]]와 같은 로컬 LLM을 연결합니다.
|
||||
* **이점**: 개인의 민감한 지식이 클라우드로 전송되지 않으면서도, 내 노트를 바탕으로 한 요약, 답변, 창의적 영감을 얻을 수 있습니다.
|
||||
3. **Andrej Karpathy의 "LLM Wiki" 패턴**:
|
||||
* 인간과 AI가 공진화하며 지식을 유지보수하는 구조입니다.
|
||||
* `raw/`(원본), `wiki/`(정제된 엔티티), `SCHEMA.md`(지식 유지 규칙)로 디렉토리를 분리하여 관리합니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **초기 구축 장벽**: 로컬 LLM 연동, 플러그인 설정 등 비개발자에게는 기술적 진입 장벽이 존재합니다.
|
||||
* **하드웨어 요구량**: 로컬에서 수만 개의 노트를 인덱싱하고 LLM을 돌리기 위해서는 고성능 GPU(RTX 3060 이상)나 Apple Silicon(M2/M3)이 필요합니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **핵심 도구**: [[Obsidian|Obsidian]], [[Ollama|Ollama]], [[Dataview|Dataview]]
|
||||
* **기반 기술**: [[Retrieval-Augmented Generation (RAG)|Local RAG]], [[Knowledge Graph|Knowledge Graph]]
|
||||
* **표준 프로토콜**: [[Model Context Protocol (MCP)|Model Context Protocol (MCP)]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,37 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-ROPE-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, rope, positional-embedding, yarn, longrope, context-extension]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Positional Embeddings (RoPE & Variants)|Positional Embeddings (RoPE & Variants)]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "지능의 나침반: 단어들 사이의 상대적 거리를 회전(Rotation)이라는 수학적 기법으로 표현하여, 모델이 학습한 범위를 훨씬 초과하는 긴 문장에서도 단어의 순서와 관계를 정확히 파악하게 해주는 위치 정보의 혁명."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
위치 인코딩(Positional Encoding)은 순서 개념이 없는 트랜스포머 모델에게 토큰의 위치 정보를 제공하는 기술입니다.
|
||||
|
||||
1. **RoPE (Rotary Position Embedding)**:
|
||||
* **원리**: 각 토큰의 위치를 복소수 평면에서의 회전 각도로 변환하여 입력값에 곱해줍니다.
|
||||
* **특징**: 절대적인 위치가 아닌 '상대적인 거리'를 자연스럽게 반영하며, 긴 문맥에서도 성능 저하가 적어 Llama, PaLM 등 대부분의 최신 모델에서 표준으로 사용됩니다.
|
||||
2. **컨텍스트 확장 기술 (Variants)**:
|
||||
* **Linear Interpolation**: 학습된 범위를 넘어서는 위치를 기존 범위 내로 선형 압축하여 인식시킵니다.
|
||||
* **YaRN (Yet another RoPE extension method)**: 서로 다른 주파수를 가진 파형들을 각기 다르게 조정하여, 정확도 손실 없이 컨텍스트 창을 수십 배 이상 확장합니다.
|
||||
* **LongRoPE**: 진화 알고리즘을 통해 수백만 토큰 이상을 처리할 수 있는 최적의 회전 파라미터를 찾아냅니다.
|
||||
3. **iRoPE (Interleaved RoPE)**:
|
||||
* 멀티모달 모델이나 긴 문맥 모델에서 특정 레이어마다 위치 정보를 다르게 주입하여 성능을 최적화하는 기법입니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **외삽(Extrapolation)의 한계**: 학습 시 보지 못한 아주 먼 거리의 토큰 간 관계를 완벽하게 파악하는 것은 여전히 수학적으로 도전적인 과제입니다.
|
||||
* **미세 조정 필수**: 단순히 RoPE 기법을 적용하는 것만으로는 부족하며, 확장된 컨텍스트 범위에서 소량의 데이터로 추가 학습(Fine-tuning)을 진행해야 제 성능이 나옵니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[Transformer Architecture|Transformer Architecture]]
|
||||
* **하위 기술**: [[Attention Mechanisms|Attention Mechanisms]]
|
||||
* **해결 과제**: [[Context Window & Long-Context LLMs|Context Window & Long-Context LLMs]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,37 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-RSNM-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, reasoning-models, deepseek-r1, cot, lrm, inference-time-compute]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Reasoning Models|Reasoning Models]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "심사숙고하는 지능: 질문을 받자마자 답을 뱉는 본능적 반응을 넘어, 내부적으로 단계별 사고 사슬(CoT)을 생성하며 스스로 논리적 결함을 점검하고 최선의 해결책을 찾아내는 '시스템 2(System 2)'적 AI."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
추론 모델(Reasoning Models)은 복잡한 수학, 코딩, 논리 퍼즐 등을 해결하기 위해 설계된 모델로, 답변 생성 전 충분한 '생각의 시간(Inference-time Compute)'을 갖는 것이 특징입니다.
|
||||
|
||||
1. **DeepSeek-R1 & LRM (Large Reasoning Models)**:
|
||||
* **핵심**: 강화학습(RL)을 통해 모델이 명시적으로 사고 사슬(Chain-of-Thought)을 생성하도록 유도합니다.
|
||||
* **사고 유형 분해**: 모델의 생각 과정은 주로 [추론(Reasoning)], [실행(Execution)], [전환(Transition)]의 세 가지 논리적 단계로 구성됩니다.
|
||||
2. **작동 원리**:
|
||||
* **Inference-time Compute**: 더 많은 연산 자원을 추론 단계에 할당하여 답변의 정확도를 높입니다. (OpenAI o1, DeepSeek-R1 등)
|
||||
* **Self-Correction**: 생각하는 과정에서 자신의 오류를 발견하면 "Wait, let me re-check..."와 같이 스스로 교정하며 논리를 전개합니다.
|
||||
3. **성과**:
|
||||
* 수학(AIME), 코딩(Codeforces) 등 고차원적인 지적 능력이 필요한 벤치마크에서 일반 LLM을 압도하는 성능을 보여줍니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **지연 시간 (Latency)**: 최종 답변을 내놓기까지 수천~수만 토큰의 내부 사고를 거쳐야 하므로 일반 모델보다 훨씬 느립니다.
|
||||
* **VRAM 폭발**: 긴 사고 사슬(CoT)은 [[KV Cache|KV Cache]]를 급격히 소모하여 GPU 메모리 부족 현상을 일으킵니다. 이를 방지하기 위한 [[ThinKV|ThinKV]]와 같은 특화된 캐시 관리 기술이 필수적입니다.
|
||||
* **Overthinking**: 단순한 인사말이나 기초적인 정보 검색에도 무거운 추론 과정을 거치는 '과도한 생각'으로 자원을 낭비할 수 있습니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[LLM Capabilities|LLM Capabilities]], [[Artificial General Intelligence (AGI)|AGI]]
|
||||
* **기반 기술**: [[Chain-of-Thought (CoT)|Chain-of-Thought (CoT)]], [[Reinforcement Learning (RL)|RL]]
|
||||
* **해결 기술**: [[KV Cache Compression|KV Cache Compression]], [[ThinKV|ThinKV]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,37 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-RRHS-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, reranking, hybrid-search, semantic-search, lexical-search, bm25]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Reranking & Hybrid Search|Reranking & Hybrid Search]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "검색의 필터링과 재조합: 단순한 의미적 유사성(Dense)과 정확한 키워드 매칭(Sparse)을 결합하고, 후보군을 다시 한번 정밀 검사하여 모델에게 가장 완벽한 근거를 제공하는 2단계 검증 시스템."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
RAG 시스템의 검색 정확도를 극대화하기 위해 두 가지 이상의 검색 방식을 결합하고 결과를 재정렬하는 기법입니다.
|
||||
|
||||
1. **Hybrid Search (하이브리드 검색)**:
|
||||
* **Dense Retrieval (임베딩 검색)**: 문맥과 의미를 파악하여 유사한 정보를 찾습니다. (예: "금융 위기"와 "경제 공황")
|
||||
* **Sparse Retrieval (키워드 검색)**: BM25 등을 사용하여 정확한 단어 매칭을 수행합니다. (예: 제품명, 고유 명사 검색)
|
||||
* **Reciprocal Rank Fusion (RRF)**: 두 검색 결과의 순위를 수학적으로 결합하여 최종 후보군을 산출합니다.
|
||||
2. **Reranking (재순위화)**:
|
||||
* **필요성**: 1차 검색(Vector Search)은 수백만 개 중 후보를 빨리 찾는 데 최적화되어 있어 정밀도가 다소 낮을 수 있습니다.
|
||||
* **작동**: 1차 검색으로 뽑힌 수십 개의 후보군에 대해, 훨씬 무겁고 정밀한 Cross-Encoder 모델을 사용하여 질문과의 관련성을 다시 계산하고 순위를 재배치합니다.
|
||||
3. **효과**:
|
||||
* 검색 결과의 상위권(Top-K)에 실제 정답이 포함될 확률(Recall)과 정답만 포함될 확률(Precision)을 동시에 높입니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **지연 시간**: Reranking 단계는 추가적인 모델 연산을 필요로 하므로, 전체 응답 속도가 수백 밀리초 이상 느려질 수 있습니다.
|
||||
* **비용**: 고성능 Reranker 모델을 사용할 경우 API 호출 비용이나 GPU 자원 소모가 늘어납니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 시스템**: [[Retrieval-Augmented Generation (RAG)|Retrieval-Augmented Generation (RAG)]]
|
||||
* **연관 기술**: [[Vector Databases & Search|Vector Databases & Search]], [[Embedding Models & MRL|Embedding Models & MRL]]
|
||||
* **주요 툴**: Cohere Rerank, BGE-Reranker, Voyage Rerank
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,36 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-TKNP-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, tokenization, bpe, wordpiece, subword-tokenizer, nlp-preprocessing]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Tokenization & Subword Processing|Tokenization & Subword Processing]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "언어의 원자화: 인간의 문장을 모델이 이해할 수 있는 숫자 조각(Token)으로 분해하는 과정이며, 이 분해 방식의 효율성이 모델의 지능, 속도, 그리고 운영 비용을 결정짓는 AI의 첫 번째 관문."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
토큰화(Tokenization)는 텍스트를 모델이 처리할 수 있는 최소 단위인 토큰으로 나누는 과정입니다.
|
||||
|
||||
1. **주요 방식**:
|
||||
* **BPE (Byte-Pair Encoding)**: 가장 빈번하게 등장하는 문자 쌍을 반복적으로 병합하여 토큰 사전을 구축합니다. (GPT, Llama 등 표준)
|
||||
* **WordPiece**: BPE와 유사하나, 병합 시 언어 모델의 우도(Likelihood) 증가량을 기준으로 선택합니다. (BERT 계열)
|
||||
* **SentencePiece**: 사전 훈련 없이 텍스트 전반을 바이트 스트림으로 처리하여 다국어 및 미등록어(OOV) 대응에 강점이 있습니다.
|
||||
2. **의미적 단위**:
|
||||
* 현대 토크나이저는 단어 전체가 아닌 '하위 단어(Subword)' 단위를 사용합니다. 이를 통해 "unhappiness"를 "un", "happi", "ness"로 나누어 각 부분의 의미를 조합할 수 있게 합니다.
|
||||
3. **토큰 사전 크기 (Vocab Size)**:
|
||||
* 사전이 너무 작으면 문장이 너무 많은 토큰으로 쪼개져 연산 효율이 떨어지고, 너무 크면 모델의 파라미터가 낭비됩니다. 보통 32k ~ 128k 사이에서 결정됩니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **다국어 불균형**: 영어는 단어당 토큰 수가 적지만, 한국어나 다른 언어는 동일한 의미라도 훨씬 많은 토큰으로 쪼개져 비용이 비싸고 성능이 저하될 수 있습니다.
|
||||
* **비결정론적 이슈**: 토크나이저의 사소한 차이가 모델의 산술 연산 능력이나 특수 문자 처리 능력에 큰 영향을 미칠 수 있습니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[Natural Language Processing (NLP)|NLP]], [[Transformer Architecture|Transformer Architecture]]
|
||||
* **하위 시스템**: [[Tokenization Economics|Tokenization Economics]]
|
||||
* **연관 물리 제약**: [[Context Window & Long-Context LLMs|Context Window]], [[KV Cache|KV Cache]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,38 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-TKNE-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, token-economics, cost-optimization, inference-efficiency, throughput]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Tokenization Economics|Tokenization Economics]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "토큰이 곧 돈이다: 모델의 연산량, VRAM 사용량, API 비용, 그리고 응답 지연 시간이 모두 '토큰의 개수'에 정비례하므로, 토큰 효율성을 최적화하는 것이 지속 가능한 AI 서비스의 핵심 경제학."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
토큰 경제학(Token Economics)은 시스템 레벨에서 토큰 사용량을 최적화하여 효율과 비용의 균형을 맞추는 엔지니어링 전략입니다.
|
||||
|
||||
1. **토크나이저 트레이드오프 삼각형 (Triangle)**:
|
||||
* **Cost (비용)**: 토큰 수가 많을수록 API 비용과 인프라 유지비가 증가합니다.
|
||||
* **Performance (성능)**: 토큰 수가 많으면 생성 지연 시간(Latency)이 늘어나고 처리량(Throughput)이 줄어듭니다.
|
||||
* **Quality (품질)**: 너무 공격적으로 토큰을 압축하거나 줄이면 모델의 이해도나 표현의 정밀도가 떨어집니다.
|
||||
2. **최적화 전략**:
|
||||
* **Dynamic Allocation**: 고정된 길이를 할당하는 대신, 실제 입력에 맞춰 시퀀스 길이를 동적으로 조정하여 메모리 낭비를 줄입니다 (최대 45% 절감).
|
||||
* **Predictive Tokenization**: 작업의 복잡도를 예측하여 적절한 토큰 예산을 할당합니다.
|
||||
* **Prefix Caching**: 반복되는 시스템 프롬프트나 대규모 문서는 토크나이징 결과를 캐싱하여 재사용합니다.
|
||||
3. **데이터 엔트로피 최적화**:
|
||||
* 불필요한 공백, 중복 서식, 노이즈 텍스트를 전처리 단계에서 제거하여 '의미당 토큰 수'를 최소화합니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **다국어 처리 오버헤드**: 특정 언어(예: 텔루구어)는 영어보다 7배 이상의 토큰을 소모할 수 있어, 글로벌 서비스 설계 시 예기치 못한 비용 폭발의 위험이 있습니다.
|
||||
* **중복의 함정**: RAG에서 청크 중첩(Overlap)을 과하게 사용하면 동일한 정보가 여러 번 토큰화되어 VRAM을 낭비하게 됩니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[Tokenization & Subword Processing|Tokenization & Subword Processing]]
|
||||
* **연관 기술**: [[Prefix Caching|Prefix Caching]], [[KV Cache Management|KV Cache Management]]
|
||||
* **해결 과제**: [[LLM Inference Optimization|LLM Inference Optimization]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,38 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-TULC-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, tool-use, function-calling, api-integration, agent-action]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Tool Use & Function Calling|Tool Use & Function Calling]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "지능의 손과 발: 텍스트 생성의 한계를 넘어, 외부 API를 호출하거나 코드를 실행함으로써 현실 세계에 직접적인 영향을 미치고 정확한 외부 데이터를 가져오는 에이전트의 핵심 인터페이스."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
도구 사용(Tool Use) 또는 함수 호출(Function Calling)은 모델이 스스로 해결할 수 없는 작업을 외부 시스템에 위임하는 기술입니다.
|
||||
|
||||
1. **작동 원리**:
|
||||
* **도구 정의 (Definition)**: 모델에게 사용 가능한 도구의 이름, 설명, 매개변수(Parameter) 스키마를 미리 알려줍니다.
|
||||
* **호출 결정 (Selection)**: 사용자의 질문에 답하기 위해 특정 도구가 필요하다고 판단되면, 모델은 답변 대신 해당 도구를 호출하기 위한 JSON 형태의 명령어를 출력합니다.
|
||||
* **결과 반영 (Integration)**: 외부 시스템에서 실행된 결과(예: 날씨 데이터, DB 쿼리 결과)를 다시 모델에게 입력하여 최종 답변을 생성합니다.
|
||||
2. **주요 사례**:
|
||||
* **Search**: 최신 정보를 위해 웹 검색 도구 활용.
|
||||
* **Calculator/Python**: 정확한 수치 계산이나 데이터 분석을 위해 코드 실행기 활용.
|
||||
* **Database**: 기업 내 데이터 조회를 위해 SQL 쿼리 생성 및 실행.
|
||||
3. **발전**:
|
||||
* 최신 모델들은 여러 개의 도구를 동시에 호출(Parallel Tool Use)하거나, 복잡한 순서로 도구를 연결하는 능력이 매우 뛰어납니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **보안 위험**: 모델이 악의적인 명령어를 생성하여 시스템을 파괴하거나 중요 데이터를 유출할 수 있으므로, 실행 환경(Sandbox)의 엄격한 격리가 필수적입니다.
|
||||
* **환각 (Hallucination)**: 존재하지 않는 도구를 부르거나, 도구의 매개변수를 잘못 생성하는 오류가 발생할 수 있습니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[Autonomous Agents & Workflows|Autonomous Agents & Workflows]]
|
||||
* **연관 기술**: [[Model Context Protocol (MCP)|Model Context Protocol (MCP)]], [[API Design|API Design]]
|
||||
* **해결 기술**: [[Execution Environment (Sandbox)|Execution Environment (Sandbox)]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,38 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-TRFA-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, transformer, attention-mechanism, mha, mla, self-attention, deep-learning]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Transformer Architecture|Transformer Architecture]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "현대 AI의 표준 설계도: 모든 데이터 사이의 관계를 동시에 파악하는 어텐션(Attention) 메커니즘을 핵심으로 하여, 문장의 순차적 처리를 탈피하고 병렬 연산의 시대를 열어젖힌 거대 언어 모델의 근간 아키텍처."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
트랜스포머는 2017년 "Attention Is All You Need" 논문에서 제안된 이후, 거의 모든 현대 생성형 AI의 기반이 된 신경망 구조입니다.
|
||||
|
||||
1. **핵심 구성 요소**:
|
||||
* **Self-Attention (자기 주의 집중)**: 문장 내의 각 단어가 다른 모든 단어들과의 연관성을 계산하여 문맥을 파악합니다.
|
||||
* **Multi-Head Attention (MHA)**: 여러 개의 어텐션을 병렬로 수행하여, 단어 간의 다양한 관계(문법적, 의미적 등)를 동시에 학습합니다.
|
||||
* **Feed-Forward Network (FFN)**: 어텐션 결과물을 비선형 변환하여 특징을 추출합니다.
|
||||
* **Positional Encoding**: 순서 정보가 없는 어텐션에 단어의 위치 정보를 주입합니다. ([[Positional Embeddings (RoPE & Variants)|RoPE]] 등 활용)
|
||||
2. **진화된 어텐션 - MLA (Multi-Head Latent Attention)**:
|
||||
* **특징**: Key와 Value를 압축된 잠재 공간(Latent Space)으로 투영하여 [[KV Cache|KV Cache]] 메모리 사용량을 획기적으로 줄입니다.
|
||||
* **의의**: 성능 저하를 최소화하면서도 백만 토큰 이상의 초장거리 문맥 처리를 가능하게 합니다. (DeepSeek 등 최신 모델 적용)
|
||||
3. **병렬 연산의 이점**:
|
||||
* 이전의 RNN 방식과 달리 문장을 한꺼번에 처리할 수 있어, GPU를 활용한 대규모 학습에 최적화되어 있습니다.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **메모리 폭발**: 어텐션 연산은 입력 길이에 비례하여 메모리 요구량이 제곱($O(n^2)$)으로 늘어납니다.
|
||||
* **MLA의 왜곡**: MLA와 같은 압축 기법은 메모리는 절약하지만, 문맥이 극도로 길어질 경우 정보의 미세한 왜곡이 발생하여 다중 정보 검색 성능이 떨어질 수 있습니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **상위 개념**: [[Deep Learning|Deep Learning]], [[Natural Language Processing (NLP)|NLP]]
|
||||
* **최적화 기술**: [[Attention Mechanisms|Attention Mechanisms]], [[Flash Attention|Flash Attention]], [[Mixture of Experts (MoE) & Sparse Architectures|MoE]]
|
||||
* **위치 정보**: [[Positional Embeddings (RoPE & Variants)|Positional Embeddings]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
@@ -0,0 +1,38 @@
|
||||
---
|
||||
id: [[P-Reinforce|P-Reinforce]]-AUTO-VDBS-001
|
||||
category: Unified
|
||||
confidence_score: 1.00
|
||||
tags: [auto-reinforced, vector-database, hnsw, indexing, semantic-search, similarity-search]
|
||||
last_reinforced: 2026-05-04
|
||||
---
|
||||
|
||||
# [[Vector Databases & Search|Vector Databases & Search]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "의미의 도서관: 텍스트, 이미지, 오디오 등의 비정형 데이터를 수학적 좌표(Vector)로 변환하고, 수억 개의 데이터 중 가장 유사한 의미를 가진 정보를 수 밀리초 만에 찾아내는 현대 AI의 거대한 지식 저장소."
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
벡터 데이터베이스는 데이터를 고차원 벡터로 인덱싱하여 빠른 유사도 검색(Similarity Search)을 가능하게 하는 시스템입니다.
|
||||
|
||||
1. **핵심 작동 원리**:
|
||||
* **임베딩 변환**: 데이터를 [[Embedding Models|Embedding Models]]를 통해 수천 차원의 벡터로 변환합니다.
|
||||
* **인덱싱 (Indexing)**: 검색 속도를 높이기 위해 데이터를 구조화합니다. (예: [[HNSW]], IVF, PQ)
|
||||
* **유사도 계산**: 코사인 유사도(Cosine Similarity)나 유클리디안 거리 등을 사용하여 쿼리와 가장 가까운 벡터들을 찾습니다.
|
||||
2. **주요 인덱싱 알고리즘 - HNSW**:
|
||||
* **계층적 그래프**: 데이터 포인트들을 계층적인 그래프 구조로 연결하여, '좁은 세상(Small World)' 네트워크 원리를 이용해 빠르게 목표에 도달합니다.
|
||||
* **특징**: 메모리 사용량은 많지만 검색 속도와 정확도가 매우 뛰어나 대부분의 상용 벡터 DB의 표준으로 자리 잡았습니다.
|
||||
3. **대표적 솔루션**:
|
||||
* **클라우드/매니지드**: Pinecone, Weaviate, Qdrant.
|
||||
* **오픈소스/설치형**: Milvus, ChromaDB, FAISS.
|
||||
|
||||
## ⚖️ Trade-offs & Caveats
|
||||
* **비용과 자원**: 벡터 데이터와 인덱스를 메모리(RAM)에 올려두어야 성능이 나오기 때문에 인프라 비용이 높습니다.
|
||||
* **정확도와 속도의 절충**: 완벽한 검색(Exact Search) 대신 근사 검색(ANN, Approximate Nearest Neighbor)을 사용하므로 100% 재현율을 보장하지는 않습니다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
* **기반 기술**: [[Embedding Models & MRL|Embedding Models & MRL]], [[Chunking & Pre-processing|Chunking & Pre-processing]]
|
||||
* **응용 분야**: [[Retrieval-Augmented Generation (RAG)|RAG]], [[Agent Memory Systems|Agent Memory Systems]]
|
||||
* **연관 기술**: [[Hybrid Search|Hybrid Search]], [[Quantization|Quantization]]
|
||||
|
||||
---
|
||||
*Last updated: 2026-05-04*
|
||||
Reference in New Issue
Block a user