# BERT (Bidirectional Encoder Representations from Transformers)

## 📌 Brief Summary
BERT는 구글이 제안한 혁신적인 사전 학습 언어 모델로, 문장의 왼쪽과 오른쪽 문맥을 동시에 고려하여 단어의 의미를 파악하는 양방향성(Bidirectionality)이 특징입니다 [1, 2]. 트랜스포머(Transformer)의 인코더 구조를 기반으로 하며, NLP 분야의 수많은 벤치마크 기록을 갱신하며 언어 이해의 지평을 넓혔습니다 [1, 3].

## 📖 Core Content
* **핵심 학습 메커니즘**
  - **마스크 언어 모델 (Masked LM)**: 문장 내 일부 단어를 가리고 주변 문맥을 통해 원래 단어를 맞히는 과정을 통해 깊은 언어 이해력을 갖춥니다 [1, 4].
  - **다음 문장 예측 (NSP)**: 두 문장이 서로 이어지는 관계인지 예측하여 문장 간의 논리적 흐름을 학습합니다 [1].

* **기술적 특징**
  - **문맥 임베딩 (Contextual Embeddings)**: 동일한 단어라도 주변 문맥에 따라 서로 다른 벡터 값을 가져 중의성 해결에 탁월합니다 [1, 5].
  - **사전 학습 및 미세 조정 (Pre-training & Fine-tuning)**: 방대한 일반 텍스트로 먼저 학습한 뒤, 특정 태스크(질의응답, 감성 분석 등)에 맞춰 살짝만 튜닝하여 고성능을 확보하는 전이 학습 패턴을 따릅니다 [1, 6].

## ⚖️ Trade-offs & Caveats
- **추론 속도**: 양방향 문맥을 모두 고려해야 하므로 단방향 모델(GPT 등)에 비해 문장 생성 속도는 느릴 수 있으며, 주로 문장 분류나 개체명 인식 등 '이해' 중심의 작업에 최적화되어 있습니다 [1, 7].
- **자원 의존성**: 대규모 파라미터를 가진 모델이므로 사전 학습에 방대한 컴퓨팅 자원이 필요합니다 [1].

## 🔗 Knowledge Connections
### Related Concepts (Auto-Linked)
* [[2026-04-30]]
* [[Architecture]]
* [[Attention Mechanisms]]
* [[BERT]]
* [[Fine-tuning]]
* [[Transfer_Learning]]
* [[Transformers]]

- **Related Topics**: 트랜스포머 아키텍처 (Transformer Architecture, 자연어 처리 (NLP), 전이 학습 (Transfer Learning), 어텐션 메커니즘 (Attention Mechanisms
- **Projects/Contexts**: 문서 유사도 판별 시스템, 개체명 인식 (NER) 모듈

---
*Last updated: 2026-04-30*