2.3 KiB
2.3 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| NLP-NER-001 | Unified | 1.0 |
|
2026-04-26 |
Named Entity Recognition (NER, 개체명 인식)
📌 한 줄 통찰 (The Karpathy Summary)
"단순한 글자의 나열에서 고유한 의미를 가진 '실체(Entities)'를 발굴하여 지식의 지도를 그려라" — 문장에서 인물, 장소, 조직, 시간 등 미리 정의된 범주의 고유 명사를 식별하고 분류하는 자연어 처리의 핵심 정보 추출 기술.
📖 구조화된 지식 (Synthesized Content)
- 추출된 패턴: "Sequence Labeling and Semantic Chunking" — 문장의 각 단어(Token)에 대해 개체명의 시작(B-), 중간(I-), 외부(O)를 나타내는 태그(BIO Tagging)를 부여하여 의미 있는 덩어리를 찾아내는 패턴.
- 주요 기법:
- Rule-based: 정규 표현식이나 사전을 이용한 매칭. 전문 도메인(의료, 법률)에서 여전히 유효.
- Deep Learning (Bi-LSTM+CRF): 단어의 앞뒤 문맥을 파악하고 라벨 간의 전이 확률을 최적화.
- Transformer-based (BERT 등): 거대 언어 모델의 풍부한 문맥 이해력을 활용하여 중의성이 높은 개체명도 정밀하게 인식.
- 의의: 비정형 텍스트를 구조화된 데이터로 변환하는 첫 단추이며, 질의응답(QA), 기계 번역, 특히 지식 그래프(Knowledge Graph) 구축의 필수 기반 기술임.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 단순히 명사를 찾는 수준을 넘어, 이제는 동일한 단어가 문맥에 따라 다른 성격의 개체가 되는 '개체명 중의성 해소(Entity Disambiguation)'와 새로운 개체를 스스로 발견하는 제로샷 NER로 진화 중임.
- 정책 변화: Antigravity 프로젝트의 지식 가드닝 엔진은 보강된 문서에서 핵심 인물, 기술 스택, 프로젝트명을 NER로 추출하여 지식들 사이의 관계망(Edge)을 자동으로 형성함.
🔗 지식 연결 (Graph)
- NLP-Foundations, Knowledge-Graph-Foundations, Linguistic-Analysis-in-AI, BERT-Foundations
- Raw Source: 10_Wiki/Topics/AI/Named-Entity-Recognition-NER.md