2.3 KiB
2.3 KiB
BERT (Bidirectional Encoder Representations from Transformers)
📌 Brief Summary
BERT는 구글이 제안한 혁신적인 사전 학습 언어 모델로, 문장의 왼쪽과 오른쪽 문맥을 동시에 고려하여 단어의 의미를 파악하는 양방향성(Bidirectionality)이 특징입니다 [1, 2]. 트랜스포머(Transformer)의 인코더 구조를 기반으로 하며, NLP 분야의 수많은 벤치마크 기록을 갱신하며 언어 이해의 지평을 넓혔습니다 [1, 3].
📖 Core Content
-
핵심 학습 메커니즘
- 마스크 언어 모델 (Masked LM): 문장 내 일부 단어를 가리고 주변 문맥을 통해 원래 단어를 맞히는 과정을 통해 깊은 언어 이해력을 갖춥니다 [1, 4].
- 다음 문장 예측 (NSP): 두 문장이 서로 이어지는 관계인지 예측하여 문장 간의 논리적 흐름을 학습합니다 [1].
-
기술적 특징
- 문맥 임베딩 (Contextual Embeddings): 동일한 단어라도 주변 문맥에 따라 서로 다른 벡터 값을 가져 중의성 해결에 탁월합니다 [1, 5].
- 사전 학습 및 미세 조정 (Pre-training & Fine-tuning): 방대한 일반 텍스트로 먼저 학습한 뒤, 특정 태스크(질의응답, 감성 분석 등)에 맞춰 살짝만 튜닝하여 고성능을 확보하는 전이 학습 패턴을 따릅니다 [1, 6].
⚖️ Trade-offs & Caveats
- 추론 속도: 양방향 문맥을 모두 고려해야 하므로 단방향 모델(GPT 등)에 비해 문장 생성 속도는 느릴 수 있으며, 주로 문장 분류나 개체명 인식 등 '이해' 중심의 작업에 최적화되어 있습니다 [1, 7].
- 자원 의존성: 대규모 파라미터를 가진 모델이므로 사전 학습에 방대한 컴퓨팅 자원이 필요합니다 [1].
🔗 Knowledge Connections
Related Concepts (Auto-Linked)
- Related Topics: 트랜스포머 아키텍처 (Transformer Architecture, 자연어 처리 (NLP), 전이 학습 (Transfer Learning), 어텐션 메커니즘 (Attention Mechanisms
- Projects/Contexts: 문서 유사도 판별 시스템, 개체명 인식 (NER) 모듈
Last updated: 2026-04-30