29 lines
2.3 KiB
Markdown
29 lines
2.3 KiB
Markdown
---
|
|
id: NLP-NER-001
|
|
category: "10_Wiki/💡 Topics/AI"
|
|
confidence_score: 1.0
|
|
tags: [nlp, ner, named-entity-recognition, information-extraction, bert, knowledge-graph]
|
|
last_reinforced: 2026-04-26
|
|
---
|
|
|
|
# Named Entity Recognition (NER, 개체명 인식)
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "단순한 글자의 나열에서 고유한 의미를 가진 '실체(Entities)'를 발굴하여 지식의 지도를 그려라" — 문장에서 인물, 장소, 조직, 시간 등 미리 정의된 범주의 고유 명사를 식별하고 분류하는 자연어 처리의 핵심 정보 추출 기술.
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
- **추출된 패턴:** "Sequence Labeling and Semantic Chunking" — 문장의 각 단어(Token)에 대해 개체명의 시작(B-), 중간(I-), 외부(O)를 나타내는 태그(BIO Tagging)를 부여하여 의미 있는 덩어리를 찾아내는 패턴.
|
|
- **주요 기법:**
|
|
- **Rule-based:** 정규 표현식이나 사전을 이용한 매칭. 전문 도메인(의료, 법률)에서 여전히 유효.
|
|
- **Deep Learning (Bi-LSTM+CRF):** 단어의 앞뒤 문맥을 파악하고 라벨 간의 전이 확률을 최적화.
|
|
- **Transformer-based (BERT 등):** 거대 언어 모델의 풍부한 문맥 이해력을 활용하여 중의성이 높은 개체명도 정밀하게 인식.
|
|
- **의의:** 비정형 텍스트를 구조화된 데이터로 변환하는 첫 단추이며, 질의응답(QA), 기계 번역, 특히 지식 그래프(Knowledge Graph) 구축의 필수 기반 기술임.
|
|
|
|
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
|
- **과거 데이터와의 충돌:** 단순히 명사를 찾는 수준을 넘어, 이제는 동일한 단어가 문맥에 따라 다른 성격의 개체가 되는 '개체명 중의성 해소(Entity Disambiguation)'와 새로운 개체를 스스로 발견하는 제로샷 NER로 진화 중임.
|
|
- **정책 변화:** Antigravity 프로젝트의 지식 가드닝 엔진은 보강된 문서에서 핵심 인물, 기술 스택, 프로젝트명을 NER로 추출하여 지식들 사이의 관계망(Edge)을 자동으로 형성함.
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- NLP-Foundations, [[Knowledge-Graph-Foundations]], [[Linguistic-Analysis-in-AI]], BERT-Foundations
|
|
- **Raw Source:** 10_Wiki/Topics/AI/Named-Entity-Recognition-NER.md
|