Files
2nd/10_Wiki/Topics/AI_and_ML/Named-Entity-Recognition-NER.md
T

3.3 KiB

id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, tags, raw_sources, last_reinforced, github_commit, inferred_by
id title category status canonical_id aliases duplicate_of source_trust_level confidence_score tags raw_sources last_reinforced github_commit inferred_by
wiki-2026-0508-named-entity-recognition-ner Named Entity Recognition NER 10_Wiki/Topics needs_review self
NLP-NER-001
none A 1.0
nlp
ner
named-entity-recognition
information-extraction
BERT
Knowledge-Graph
2026-04-26 pending Claude Opus 4.7 (auto-normalize 2026-05-08)

Named Entity Recognition (NER, 개체명 인식)

📌 한 줄 통찰 (The Karpathy Summary)

"단순한 글자의 나열에서 고유한 의미를 가진 '실체(Entities)'를 발굴하여 지식의 지도를 그려라" — 문장에서 인물, 장소, 조직, 시간 등 미리 정의된 범주의 고유 명사를 식별하고 분류하는 자연어 처리의 핵심 정보 추출 기술.

📖 구조화된 지식 (Synthesized Content)

  • 추출된 패턴: "Sequence Labeling and Semantic Chunking" — 문장의 각 단어(Token)에 대해 개체명의 시작(B-), 중간(I-), 외부(O)를 나타내는 태그(BIO Tagging)를 부여하여 의미 있는 덩어리를 찾아내는 패턴.
  • 주요 기법:
    • Rule-based: 정규 표현식이나 사전을 이용한 매칭. 전문 도메인(의료, 법률)에서 여전히 유효.
    • Deep Learning (Bi-LSTM+CRF): 단어의 앞뒤 문맥을 파악하고 라벨 간의 전이 확률을 최적화.
    • Transformer-based (BERT 등): 거대 언어 모델의 풍부한 문맥 이해력을 활용하여 중의성이 높은 개체명도 정밀하게 인식.
  • 의의: 비정형 텍스트를 구조화된 데이터로 변환하는 첫 단추이며, 질의응답(QA), 기계 번역, 특히 지식 그래프(Knowledge Graph) 구축의 필수 기반 기술임.

⚠️ 모순 및 업데이트 (Contradictions & Updates)

  • 과거 데이터와의 충돌: 단순히 명사를 찾는 수준을 넘어, 이제는 동일한 단어가 문맥에 따라 다른 성격의 개체가 되는 '개체명 중의성 해소(Entity Disambiguation)'와 새로운 개체를 스스로 발견하는 제로샷 NER로 진화 중임.
  • 정책 변화: Antigravity 프로젝트의 지식 가드닝 엔진은 보강된 문서에서 핵심 인물, 기술 스택, 프로젝트명을 NER로 추출하여 지식들 사이의 관계망(Edge)을 자동으로 형성함.

🔗 지식 연결 (Graph)

  • NLP-Foundations, Knowledge-Graph-Foundations, Linguistic-Analysis-in-AI, BERT-Foundations
  • Raw Source: 10_Wiki/Topics/AI/Named-Entity-Recognition-NER.md

🤖 LLM 활용 힌트 (How to Use This Knowledge)

언제 이 지식을 쓰는가:

  • (TODO)

언제 쓰면 안 되는가:

  • (TODO)

🧪 검증 상태 (Validation)

  • 정보 상태: needs_review
  • 출처 신뢰도: A
  • 검토 이유: (P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)

🧬 중복 검사 (Duplicate Check)

  • 기존 유사 문서: (TODO: 인덱서 클러스터 리포트 참조)
  • 처리 방식: UPDATE (자동 정규화)
  • 처리 이유: Phase 1 정규화 — 옛 템플릿/누락 필드 보강.

🕓 변경 이력 (Changelog)

날짜 변경 내용 처리 방식 신뢰도
2026-05-08 P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) UPDATE A