Files
2nd/10_Wiki/Topics/BERT (Bidirectional Encoder Representations from Transformers).md
T
2026-04-30 23:25:56 +09:00

2.1 KiB

BERT (Bidirectional Encoder Representations from Transformers)

📌 Brief Summary

BERT는 구글이 제안한 혁신적인 사전 학습 언어 모델로, 문장의 왼쪽과 오른쪽 문맥을 동시에 고려하여 단어의 의미를 파악하는 양방향성(Bidirectionality)이 특징입니다 [1, 2]. 트랜스포머(Transformer)의 인코더 구조를 기반으로 하며, NLP 분야의 수많은 벤치마크 기록을 갱신하며 언어 이해의 지평을 넓혔습니다 [1, 3].

📖 Core Content

  • 핵심 학습 메커니즘

    • 마스크 언어 모델 (Masked LM): 문장 내 일부 단어를 가리고 주변 문맥을 통해 원래 단어를 맞히는 과정을 통해 깊은 언어 이해력을 갖춥니다 [1, 4].
    • 다음 문장 예측 (NSP): 두 문장이 서로 이어지는 관계인지 예측하여 문장 간의 논리적 흐름을 학습합니다 [1].
  • 기술적 특징

    • 문맥 임베딩 (Contextual Embeddings): 동일한 단어라도 주변 문맥에 따라 서로 다른 벡터 값을 가져 중의성 해결에 탁월합니다 [1, 5].
    • 사전 학습 및 미세 조정 (Pre-training & Fine-tuning): 방대한 일반 텍스트로 먼저 학습한 뒤, 특정 태스크(질의응답, 감성 분석 등)에 맞춰 살짝만 튜닝하여 고성능을 확보하는 전이 학습 패턴을 따릅니다 [1, 6].

⚖️ Trade-offs & Caveats

  • 추론 속도: 양방향 문맥을 모두 고려해야 하므로 단방향 모델(GPT 등)에 비해 문장 생성 속도는 느릴 수 있으며, 주로 문장 분류나 개체명 인식 등 '이해' 중심의 작업에 최적화되어 있습니다 [1, 7].
  • 자원 의존성: 대규모 파라미터를 가진 모델이므로 사전 학습에 방대한 컴퓨팅 자원이 필요합니다 [1].

🔗 Knowledge Connections


Last updated: 2026-04-30