feat(wiki): implement P-Reinforce v3.0 standard & integrate 26+ new knowledge artifacts

- Formalized automatic record migration protocol in System Manual.
- Integrated high-density knowledge for RAG, AI, Business Strategy, and Leadership.
- Enhanced graph connectivity across core strategic hubs.
- Archived raw data and updated timeline records.
This commit is contained in:
Antigravity Agent
2026-05-04 22:40:32 +09:00
parent a9a2bcb239
commit 0441f6e2a2
307 changed files with 11360 additions and 91 deletions
@@ -0,0 +1,71 @@
---
id: [[P-Reinforce|P-Reinforce]]-AUTO-EMB-001
category: AI_and_ML
confidence_score: 1.00
tags: [auto-reinforced, embedding, nlp, vector-space, transformer]
last_reinforced: 2026-05-04
---
# [[Vector Embedding|Vector Embedding]]
## 📌 한 줄 통찰 (The Karpathy Summary)
> "데이터의 지문: 비정형 데이터(텍스트, 이미지 등)를 AI가 이해할 수 있는 고정된 길이의 숫자 배열로 변환하여, 컴퓨터가 정보의 '의미적 거리'를 계산할 수 있게 만드는 번역 과정."
## 📖 구조화된 지식 (Synthesized Content)
벡터 임베딩은 이산적인 데이터(예: 단어, 문장, 이미지)를 연속적인 다차원 벡터 공간의 점으로 변환하는 수치화된 표현 방식입니다.
1. **핵심 개념 (Key Concepts)**:
* **의미론적 보존 (Semantic Preservation)**: 의미가 유사한 데이터들은 벡터 공간상에서도 서로 가깝게 위치하도록 학습됩니다 (예: '왕'-'남자' ≈ '여왕'-'여자').
* **고차원 표현 (High-dimensional Representation)**: 수백에서 수천 차원의 공간을 사용하여 데이터의 미세한 특징(Feature)들을 포착합니다.
* **밀집 벡터 (Dense Vector)**: 대부분의 값이 0인 Sparse Vector(예: One-hot encoding)와 달리, 대부분의 차원이 의미 있는 실수값으로 채워져 정보 밀도가 높습니다.
2. **임베딩 모델의 진화**:
* **Static Embeddings**: Word2Vec, GloVe (문맥에 관계없이 동일한 단어는 동일한 벡터로 변환).
* **Contextual Embeddings**: [[BERT]], GPT (문맥에 따라 단어의 의미와 벡터가 변화).
3. **임베딩 생성 프로세스**:
* 입력 데이터 → 사전 학습된 모델(Encoder) → 고정 길이 벡터(Latent Space) → [[Vector Database|Vector Database]] 저장.
## ⚖️ Trade-offs & Caveats
* **모델 의존성**: 어떤 임베딩 모델(OpenAI `text-embedding-3`, `all-MiniLM-L6-v2` 등)을 사용하느냐에 따라 검색 성능과 비용이 천차만별입니다.
* **의미적 간극 (Semantic Gap)**: 모델이 학습하지 못한 도메인 특화 단어나 약어는 잘못된 벡터로 변환되어 검색 실패를 유발할 수 있습니다.
* **차원의 저주 (Curse of Dimensionality)**: 차원이 너무 높으면 계산 복잡도가 기하급수적으로 늘어나고 유사도 측정이 모호해질 수 있습니다.
## 💻 실전 구현 코드 (Boilerplate)
`sentence-transformers`를 활용하여 텍스트를 임베딩으로 변환하는 가장 기본적인 방법입니다.
```python
from sentence_transformers import SentenceTransformer
import numpy as np
# 1. 모델 로드 (경량화된 다국어 지원 모델 추천)
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
# 2. 텍스트 데이터 준비
sentences = [
"AI는 지식 수집의 효율성을 혁신합니다.",
"인공지능은 데이터 분석을 고도화합니다.",
"오늘 점심 메뉴는 무엇입니까?"
]
# 3. 임베딩 생성
embeddings = model.encode(sentences)
# 4. 코사인 유사도 계산 (첫 번째와 두 번째 문장 비교)
def cosine_similarity(a, b):
return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))
sim = cosine_similarity(embeddings[0], embeddings[1])
print(f"Similarity (AI vs AI): {sim:.4f}")
diff = cosine_similarity(embeddings[0], embeddings[2])
print(f"Similarity (AI vs Lunch): {diff:.4f}")
```
## 🔗 지식 연결 (Graph)
* **상위 개념**: [[Natural Language Processing (NLP)|NLP]], [[Machine Learning (Machine Learning)|Machine Learning]]
* **활용 기술**: [[Vector Database|Vector Database]], [[Vector Search|Vector Search]], [[Semantic Search|Semantic Search]]
* **관련 기법**: [[BERT|BERT]], [[TF-IDF|TF-IDF]] (Sparse Baseline)
---
*Last updated: 2026-05-04*