- Topic_Blog: 미추적 상태였던 SEO/색인 지식 문서 일괄 추적 추가
(Google '페이지 색인 생성 보고서' 기반 신규 6종 포함:
페이지 색인 생성 보고서/색인 생성 유효성 검사/Soft 404/NOINDEX/
크롤링됨·발견됨-현재 색인 안 됨/SEO를 위한 HTTP 상태 코드).
- orphan 연결: 완전 고립된 지식 문서 9개를 관련 기존 문서와 양방향 링크
(Game Design 쌍, Aerospace, Apple Vision Pro, 3D_Web_HMI, Stock 3,
Topics_Biz). append-only, 존재 타깃만 링크(dangling 0).
도구: Datacollect/scripts/wiki_audit.mjs (중복·orphan 감사)
Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
비지도 학습은 사전 라벨링된 데이터 없이 원본 말뭉치의 통계적 변동성과 구조적 연결성을 분석하여 언어의 핵심 객체와 의미 관계를 스스로 식별하는 데이터 주도적(Data-driven) 분석 체계이다. [S1], [S2], [S3]
🧠 핵심 개념 (Core concepts)
통계 기반 경계 학습 (Statistical Boundary Learning): Cohesion score 및 Branching Entropy와 같은 수치를 통해 단어의 결합 응집력과 경계의 불확실성을 계산하여 단어를 추출한다. [S1]
그래프 기반 랭킹 (Graph-based Ranking): 단어 간의 공생(Co-occurrence) 관계를 그래프로 모델링하고 PageRank 알고리즘을 적용하여 상대적 중요도를 산출한다. [S2]
미등록 단어 해소 (OOV Resolution): 학습 데이터에 존재하지 않는 신조어나 도메인 특화 용어를 문맥적 패턴을 통해 실시간으로 인식할 수 있다. [S1]
동질적 말뭉치 의존성 (Homogeneous Corpus Dependency): 통계적 패턴을 활용하기 위해 유사한 용어 체계를 공유하는 대규모 문서 집합에서 가장 높은 성능을 발휘한다. [S1]
🧩 추출된 패턴 (Extracted patterns)
Recursive Importance 전파: 특정 노드(단어)의 중요도는 그와 연결된 다른 중요 노드들에 의해 결정되는 재귀적 구조를 가진다(TextRank). [S2]
L-R(Left-Right) 구조 휴리스틱: 한국어 어절을 'L(명사/동사/형용사) + R(조사/어미)'로 분해하여 통계적 점수가 높은 L 파트를 식별하는 패턴이다. [S1]
중심성 지표 분석: 언어 네트워크 내에서 단어 간의 연결 구조를 통해 아이겐벡터 중심성이나 매개 중심성을 산출하여 핵심어를 식별한다. [S4]
⚖️ 비교 및 선택 기준 (Comparison & decision criteria)
항목 (Option)
장점
단점
언제 선택
비지도 학습 (soynlp/TextRank)
라벨링 데이터가 불필요하며 신조어 대응력이 탁월함. [S1], [S2]
일정 규모 이상의 데이터셋이 필요하며 연산 비용이 발생함.
도메인 특화 용어나 신조어가 많은 비정형 텍스트 분석 시.
지도 학습 (Supervised)
정답지가 있어 높은 정확도를 보장하며 품사 판별이 명확함.
라벨링 비용이 크고 사전(Dictionary)에 없는 단어 인식 불가. [S1]
정제된 표준어 기반의 소규모 문서 분석 시.
사전 기반(Dictionary-based)
가장 빠르고 직관적이며 명확한 기준 제공.
언어의 변화 속도를 따라가지 못해 OOV 문제 발생. [S1]
고정된 전문 용어 체계를 가진 안정적인 데이터 처리 시.
📖 세부 내용 (Details)
1. 통계적 단어 추출 기법
응집도(Cohesion Score): 연속된 글자들이 하나의 단어로 뭉쳐질 가능성을 측정한다. soynlp에서는 특정 문자열이 주어졌을 때 다음 글자가 나올 확률의 통계적 패턴을 분석한다. [S1]
브랜칭 엔트로피(Branching Entropy): 특정 단어 뒤에 올 수 있는 글자의 다양성(불확실성)을 측정하여, 엔트로피가 급증하는 지점을 단어의 경계로 간주한다. [S1]
Accessor Variety: 단어의 좌우에 등장하는 서로 다른 인접 단어의 종류를 파악하여 단어의 독립성을 평가한다. [S1]
2. 그래프 기반의 키워드 추출 (TextRank)
텍스트를 토큰화한 후 단어를 노드(Node)로, 단어 간의 공생 관계를 엣지(Edge)로 설정한다. [S2]
PageRank 알고리즘을 기반으로, "영향력 있는 단어에 의해 인용되거나 함께 등장하는 단어는 중요도가 높다"는 원리를 따른다. [S2]
별도의 학습 말뭉치 없이 단일 문서 또는 작은 문서군 내의 구조만으로 핵심어와 핵심 문장을 추출할 수 있는 비지도 학습의 대표적 사례이다. [S2]
3. 언어 네트워크 분석 (Semantic Network Analysis)
내용 분석과 사회 네트워크 분석을 결합하여 텍스트 내부의 개념 구조를 시각화한다. [S4]
연구자의 주관적 개입을 최소화하면서 텍스트가 내포한 본연의 구조적 핵심 내용을 체계적으로 추출할 수 있다. [S4]
아이겐벡터 중심성(Eigenvector Centrality): 단순히 연결된 노드 수뿐만 아니라, 연결된 노드의 중요도까지 가중치를 두어 전체 네트워크 상의 영향력을 파악한다. [S4]
⚖️ 모순 및 업데이트 (Contradictions & updates)
데이터 규모의 딜레마: 비지도 학습은 학습 데이터가 필요 없다는 장점이 있으나, 통계적 유의미성을 확보하기 위해서는 반대로 어느 정도 규모가 있는 '동질적 집단'의 문서가 확보되어야 한다는 전제 조건이 따른다. [S1]
PageRank 수식 수정: 초기 논문에 제시된 PageRank의 합이 1이 되어야 한다는 설명과 달리, 실제 수식 적용 시 합이 전체 페이지 수(N)가 되는 오류가 있어 학계에서 수정된 수식이 공유되고 있다. [S2]
🛠️ 적용 사례 (Applied in summary)
soynlp 라이브러리: 한국어 뉴스 기사에서 '트와이스', '아이오아이' 등 신조어를 사전 학습 없이 자동으로 추출하는 WordExtractor에 적용됨. [S1]
KR-WordRank: HITS 알고리즘을 활용하여 토크나이저 학습 없이도 substring graph에서 실시간 키워드를 추출함. [S1]
코로나19 위험 인식 연구: 일반인 대상 인터뷰 텍스트를 언어 네트워크 분석(NetMiner 4)으로 처리하여 연령대별 핵심 인식 구조(가족, 마스크, 짜증 등)를 도출함. [S4]
💻 코드 패턴 (Code patterns)
# soynlp의 WordExtractor를 이용한 비지도 단어 추출 패턴fromsoynlp.wordimportWordExtractor# 1. 동질적 말뭉치(sentences) 준비 및 학습word_extractor=WordExtractor(min_count=5,# 최소 출현 빈도max_length=10# 단어 최대 길이)word_extractor.train(sentences)# list of strings# 2. 통계 지표(Cohesion, Entropy) 기반 단어 추출words=word_extractor.extract()# 3. 특정 단어의 통계 점수 확인 예시print(words['자연어'].cohesion_forward)print(words['자연어'].right_branching_entropy)
[S1]
✅ 검증 상태 및 신뢰도
상태: draft
검증 단계: conceptual (실제 오픈소스 soynlp 라이브러리 및 학술 연구 방법론으로 검증됨)