2.1 KiB
2.1 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | ||||||
|---|---|---|---|---|---|---|---|---|---|---|
| BERT-001 | 10_Wiki/💡 Topics/AI | 1.0 |
|
2026-04-26 |
BERT (Bidirectional Encoder Representations from Transformers)
📌 한 줄 통찰 (The Karpathy Summary)
"문장의 왼쪽과 오른쪽을 동시에 보며 단어의 진짜 의미를 파악하라" — 구글이 제안한 혁신적인 사전 학습 모델로, 문맥의 양방향성을 모두 고려하여 단어의 의미를 수치화함으로써 NLP 분야의 수많은 벤치마크 기록을 갱신한 모델.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: 문장 내의 일부 단어를 가리고(Masked LM) 원래 단어를 맞히는 과정과, 두 문장이 이어지는지(NSP) 예측하는 과정을 통해 깊이 있는 언어 이해력을 갖추는 사전 학습 패턴.
- 핵심 특징:
- Bidirectional Context: 이전 시점의 정보만 보는 GPT와 달리, 앞뒤 문맥을 한꺼번에 고려하여 중의성 해결에 탁월함.
- Transformer Encoder: 트랜스포머 아키텍처의 인코더 부분만 층층이 쌓아 올려 구성.
- Pre-training & Fine-tuning: 방대한 일반 텍스트로 먼저 학습한 뒤, 특정 태스크(질의응답, 감성 분석 등)에 맞춰 살짝만 튜닝하여 고성능 확보.
- Contextual Embeddings: 동일한 단어라도 주변 문맥에 따라 서로 다른 벡터 값을 가짐.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 단방향 언어 모델의 한계를 극복하고, '이해' 중심의 NLP 태스크에서 독보적 지위를 확보. 이후 RoBERTa, ALBERT 등 다양한 변형 모델의 탄생을 이룸.
- 정책 변화: Antigravity 프로젝트는 문서 간의 의미적 유사성 판별 및 개체명 인식(NER) 작업에 BERT 기반의 임베딩 모델을 주력으로 사용함.