chore(wiki): reinforce knowledge batch #6-#10 (200 docs milestone)

This commit is contained in:
Antigravity Agent
2026-04-26 15:07:47 +09:00
parent f541717fe1
commit c612160a13
265 changed files with 8026 additions and 1113 deletions
+16 -20
View File
@@ -1,32 +1,28 @@
---
id: P-REINFORCE-AUTO-BERT-001
id: BERT-001
category: "[[10_Wiki/💡 Topics/AI]]"
confidence_score: 1.00
tags: [auto-reinforced, bert, nlp, transformers, language-models, pre-training]
last_reinforced: 2026-04-20
confidence_score: 1.0
tags: [ai, nlp, bert, transformer, language-model, google-research]
last_reinforced: 2026-04-26
---
# [[BERT]]
# [[BERT (Bidirectional Encoder Representations from Transformers)]]
## 📌 한 줄 통찰 (The Karpathy Summary)
> "양방향 문맥의 혁명: 문장을 앞뒤로 번갈아 훑어가며 보이지 않는 구멍(Mask)을 채워 넣는 훈련을 통해, 단어 하나가 문장 전체와 맺는 깊은 의미적 맥락을 완벽히 이해해낸 구글의 언어 지성체."
> "문장의 왼쪽과 오른쪽을 동시에 보며 단어의 진짜 의미를 파악하라" — 구글이 제안한 혁신적인 사전 학습 모델로, 문맥의 양방향성을 모두 고려하여 단어의 의미를 수치화함으로써 NLP 분야의 수많은 벤치마크 기록을 갱신한 모델.
## 📖 구조화된 지식 (Synthesized Content)
BERT(Bidirectional Encoder Representations from Transformers)는 2018년 구글이 공개한 트랜스포머 기반의 사전 학습(Pre-training) 모델입니다.
1. **핵심 혁신 - 양방향성(Bidirectionality)**:
* 이전 모델들이 문장을 한 방향으로만 읽었던 것과 달리, BERT는 문장 전체를 한꺼번에 보고 각 단어의 앞뒤 문맥을 동시에 파악함.
2. **학습 전략**:
* **MLM (Masked Language Model)**: 문장 일부 단어를 가리고 원본을 맞추게 함. (Auto-Encoding의 변형)
* **NSP (Next Sentence Prediction)**: 두 문장이 연달아 이어지는 문장인지 판별함.
3. **영향**:
* 검색 엔진(Google Search)의 의미 이해도를 비약적으로 높였으며, 수많은 후속 모델(RoBERTa, ALBERT 등)의 시조가 됨.
- **추출된 패턴:** 문장 내의 일부 단어를 가리고(Masked LM) 원래 단어를 맞히는 과정과, 두 문장이 이어지는지(NSP) 예측하는 과정을 통해 깊이 있는 언어 이해력을 갖추는 사전 학습 패턴.
- **핵심 특징:**
- **Bidirectional Context:** 이전 시점의 정보만 보는 GPT와 달리, 앞뒤 문맥을 한꺼번에 고려하여 중의성 해결에 탁월함.
- **Transformer Encoder:** 트랜스포머 아키텍처의 인코더 부분만 층층이 쌓아 올려 구성.
- **Pre-training & Fine-tuning:** 방대한 일반 텍스트로 먼저 학습한 뒤, 특정 태스크(질의응답, 감성 분석 등)에 맞춰 살짝만 튜닝하여 고성능 확보.
- **Contextual Embeddings:** 동일한 단어라도 주변 문맥에 따라 서로 다른 벡터 값을 가짐.
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌**: 과거에는 특정 태스크마다 모델을 새로 만드는 정책이었으나, BERT 이후로는 거대 모델을 먼저 범용적으로 학습시키고 개별 태스크에 미세 조정(Fine-tuning)하는 'Pre-train & Fine-tune 정책'이 표준이 됨(RL Update).
- **정책 변화(RL Update)**: 최근에는 BERT와 같은 인코더 전용 모델보다 긴 문장을 생성하는 디코더 전용 모델(GPT 시리즈)에 연구 역량이 집중되는 정책적 변화가 있었으나, 정밀한 텍스트 분석 및 정보 추출 분야에서는 여전히 BERT 계열 모델이 실무적 불패 정책을 유지함.
- **과거 데이터와의 충돌:** 단방향 언어 모델의 한계를 극복하고, '이해' 중심의 NLP 태스크에서 독보적 지위를 확보. 이후 RoBERTa, ALBERT 등 다양한 변형 모델의 탄생을 이룸.
- **정책 변화:** Antigravity 프로젝트는 문서 간의 의미적 유사성 판별 및 개체명 인식(NER) 작업에 BERT 기반의 임베딩 모델을 주력으로 사용함.
## 🔗 지식 연결 (Graph)
- [[Transformers]], [[Natural Language Processing (NLP)]], [[Auto-Encoding]], [[Word-Representation]], [[Attention Mechanisms]]
- **Modern Tech/Tools**: Hugging Face Transformers library, BERT-Large, DistilBERT.
---
- [[Transformer-Architecture]], [[NLP]], [[Attention-Mechanisms]], [[Transfer-Learning-Foundations]]
- **Raw Source:** [[10_Wiki/Topics/AI/BERT.md]]