Files

T

koriweb 27b2c25e4d feat(wiki): Topic_Blog SEO 지식화 + orphan 연결

- Topic_Blog: 미추적 상태였던 SEO/색인 지식 문서 일괄 추적 추가
  (Google '페이지 색인 생성 보고서' 기반 신규 6종 포함:
   페이지 색인 생성 보고서/색인 생성 유효성 검사/Soft 404/NOINDEX/
   크롤링됨·발견됨-현재 색인 안 됨/SEO를 위한 HTTP 상태 코드).
- orphan 연결: 완전 고립된 지식 문서 9개를 관련 기존 문서와 양방향 링크
  (Game Design 쌍, Aerospace, Apple Vision Pro, 3D_Web_HMI, Stock 3,
   Topics_Biz). append-only, 존재 타깃만 링크(dangling 0).
도구: Datacollect/scripts/wiki_audit.mjs (중복·orphan 감사)

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>

2026-06-10 14:48:16 +09:00

11 KiB

Raw Blame History

id, title, category, status, verification_status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, created_at, updated_at, review_reason, merge_history, tags, raw_sources, applied_in, github_commit

title

비지도 학습

🎯 한 줄 통찰 (One-line insight)

비지도 학습은 사전 라벨링된 데이터 없이 원본 말뭉치의 통계적 변동성과 구조적 연결성을 분석하여 언어의 핵심 객체와 의미 관계를 스스로 식별하는 데이터 주도적(Data-driven) 분석 체계이다. [S1], [S2], [S3]

🧠 핵심 개념 (Core concepts)

통계 기반 경계 학습 (Statistical Boundary Learning): Cohesion score 및 Branching Entropy와 같은 수치를 통해 단어의 결합 응집력과 경계의 불확실성을 계산하여 단어를 추출한다. [S1]
그래프 기반 랭킹 (Graph-based Ranking): 단어 간의 공생(Co-occurrence) 관계를 그래프로 모델링하고 PageRank 알고리즘을 적용하여 상대적 중요도를 산출한다. [S2]
미등록 단어 해소 (OOV Resolution): 학습 데이터에 존재하지 않는 신조어나 도메인 특화 용어를 문맥적 패턴을 통해 실시간으로 인식할 수 있다. [S1]
동질적 말뭉치 의존성 (Homogeneous Corpus Dependency): 통계적 패턴을 활용하기 위해 유사한 용어 체계를 공유하는 대규모 문서 집합에서 가장 높은 성능을 발휘한다. [S1]

🧩 추출된 패턴 (Extracted patterns)

Recursive Importance 전파: 특정 노드(단어)의 중요도는 그와 연결된 다른 중요 노드들에 의해 결정되는 재귀적 구조를 가진다(TextRank). [S2]
L-R(Left-Right) 구조 휴리스틱: 한국어 어절을 'L(명사/동사/형용사) + R(조사/어미)'로 분해하여 통계적 점수가 높은 L 파트를 식별하는 패턴이다. [S1]
중심성 지표 분석: 언어 네트워크 내에서 단어 간의 연결 구조를 통해 아이겐벡터 중심성이나 매개 중심성을 산출하여 핵심어를 식별한다. [S4]

⚖️ 비교 및 선택 기준 (Comparison & decision criteria)

항목 (Option)	장점	단점	언제 선택
비지도 학습 (soynlp/TextRank)	라벨링 데이터가 불필요하며 신조어 대응력이 탁월함. [S1], [S2]	일정 규모 이상의 데이터셋이 필요하며 연산 비용이 발생함.	도메인 특화 용어나 신조어가 많은 비정형 텍스트 분석 시.
지도 학습 (Supervised)	정답지가 있어 높은 정확도를 보장하며 품사 판별이 명확함.	라벨링 비용이 크고 사전(Dictionary)에 없는 단어 인식 불가. [S1]	정제된 표준어 기반의 소규모 문서 분석 시.
사전 기반(Dictionary-based)	가장 빠르고 직관적이며 명확한 기준 제공.	언어의 변화 속도를 따라가지 못해 OOV 문제 발생. [S1]	고정된 전문 용어 체계를 가진 안정적인 데이터 처리 시.

📖 세부 내용 (Details)

1. 통계적 단어 추출 기법

응집도(Cohesion Score): 연속된 글자들이 하나의 단어로 뭉쳐질 가능성을 측정한다. soynlp에서는 특정 문자열이 주어졌을 때 다음 글자가 나올 확률의 통계적 패턴을 분석한다. [S1]
브랜칭 엔트로피(Branching Entropy): 특정 단어 뒤에 올 수 있는 글자의 다양성(불확실성)을 측정하여, 엔트로피가 급증하는 지점을 단어의 경계로 간주한다. [S1]
Accessor Variety: 단어의 좌우에 등장하는 서로 다른 인접 단어의 종류를 파악하여 단어의 독립성을 평가한다. [S1]

2. 그래프 기반의 키워드 추출 (TextRank)

텍스트를 토큰화한 후 단어를 노드(Node)로, 단어 간의 공생 관계를 엣지(Edge)로 설정한다. [S2]
PageRank 알고리즘을 기반으로, "영향력 있는 단어에 의해 인용되거나 함께 등장하는 단어는 중요도가 높다"는 원리를 따른다. [S2]
별도의 학습 말뭉치 없이 단일 문서 또는 작은 문서군 내의 구조만으로 핵심어와 핵심 문장을 추출할 수 있는 비지도 학습의 대표적 사례이다. [S2]

3. 언어 네트워크 분석 (Semantic Network Analysis)

내용 분석과 사회 네트워크 분석을 결합하여 텍스트 내부의 개념 구조를 시각화한다. [S4]
연구자의 주관적 개입을 최소화하면서 텍스트가 내포한 본연의 구조적 핵심 내용을 체계적으로 추출할 수 있다. [S4]
아이겐벡터 중심성(Eigenvector Centrality): 단순히 연결된 노드 수뿐만 아니라, 연결된 노드의 중요도까지 가중치를 두어 전체 네트워크 상의 영향력을 파악한다. [S4]

⚖️ 모순 및 업데이트 (Contradictions & updates)

데이터 규모의 딜레마: 비지도 학습은 학습 데이터가 필요 없다는 장점이 있으나, 통계적 유의미성을 확보하기 위해서는 반대로 어느 정도 규모가 있는 '동질적 집단'의 문서가 확보되어야 한다는 전제 조건이 따른다. [S1]
PageRank 수식 수정: 초기 논문에 제시된 PageRank의 합이 1이 되어야 한다는 설명과 달리, 실제 수식 적용 시 합이 전체 페이지 수(N)가 되는 오류가 있어 학계에서 수정된 수식이 공유되고 있다. [S2]

🛠️ 적용 사례 (Applied in summary)

soynlp 라이브러리: 한국어 뉴스 기사에서 '트와이스', '아이오아이' 등 신조어를 사전 학습 없이 자동으로 추출하는 WordExtractor에 적용됨. [S1]
KR-WordRank: HITS 알고리즘을 활용하여 토크나이저 학습 없이도 substring graph에서 실시간 키워드를 추출함. [S1]
코로나19 위험 인식 연구: 일반인 대상 인터뷰 텍스트를 언어 네트워크 분석(NetMiner 4)으로 처리하여 연령대별 핵심 인식 구조(가족, 마스크, 짜증 등)를 도출함. [S4]

💻 코드 패턴 (Code patterns)

# soynlp의 WordExtractor를 이용한 비지도 단어 추출 패턴
from soynlp.word import WordExtractor

# 1. 동질적 말뭉치(sentences) 준비 및 학습
word_extractor = WordExtractor(
    min_count=5, # 최소 출현 빈도
    max_length=10 # 단어 최대 길이
)
word_extractor.train(sentences) # list of strings

# 2. 통계 지표(Cohesion, Entropy) 기반 단어 추출
words = word_extractor.extract()

# 3. 특정 단어의 통계 점수 확인 예시
print(words['자연어'].cohesion_forward) 
print(words['자연어'].right_branching_entropy)

[S1]

✅ 검증 상태 및 신뢰도

상태: draft
검증 단계: conceptual (실제 오픈소스 soynlp 라이브러리 및 학술 연구 방법론으로 검증됨)
출처 신뢰도: A (전문 라이브러리 공식 문서, DBpia 등재 학술 논문 기반)
신뢰 점수: 0.95
중복 검사 결과: 신규 생성 (New discovery)

상위/유사 개념

키워드 산출 방법 — 비지도 학습이 적용되는 주된 목적.
자연어 처리 (NLP) — 비지도 학습을 통해 해결하고자 하는 기술적 도메인. [S1], [S2]
TextRank — 그래프 기반 비지도 학습의 핵심 알고리즘. [S2]

심층 후속 질문 (Deeper Research Questions)

비지도 학습 모델의 성능을 평가하기 위한 '정답지'가 없을 때, 골드 스탠다드(Gold Standard)를 어떻게 설정할 것인가?
문서의 이질성(Heterogeneity)이 높아질 때 발생하는 통계적 노이즈를 어떻게 상쇄할 수 있는가?
L-R 구조 분석에서 한국어 특유의 불규칙 활용이 단어 점수 산출에 미치는 영향은?
그래프 기반 랭킹에서 덤핑 팩터(Damping Factor) d=0.85가 한국어 텍스트 구조에서도 최적의 값인가?
매개 중심성이 높은 단어를 제거했을 때 전체 텍스트의 의미적 응집도가 얼마나 무너지는가?

실무 적용 맥락

Implementation: soynlp를 통해 사전 구축 비용 없이 신규 도메인 단어장(Dictionary) 자동 생성. [S1]
System Design: 실시간 스트리밍 텍스트 데이터에서 트렌드 키워드를 포착하는 파이프라인 설계. [S1]
Operation / Maintenance: 말뭉치가 변화함에 따라 주기적으로 추출기를 재학습시켜 통계 정보 업데이트 필요. [S1]

인접 주변 주제

토픽 모델링 — 문서 군집 내에서 잠재적 주제를 찾아내는 또 다른 비지도 방식.
임베딩 (Embedding) — 단어를 벡터 공간에 매핑하여 의미론적 관계를 파악하는 기술. [S5]

🔗 지식 그래프 (Knowledge Graph)

상위/루트: 키워드 산출 방법
관련 개념: 자연어 처리 (NLP), TextRank, soynlp, 언어 네트워크 분석
참조 맥락: 사전 정보가 없는 대규모 비정형 데이터 분석, 신조어 탐지, 학술적 텍스트 구조 분석 시 참조.

📚 출처 (Sources)

[S1] lovit/soynlp GitHub (https://github.com/lovit/soynlp) - 한국어 비지도 학습 라이브러리 가이드
[S2] TextRank를 이용한 키워드 추출 가이드 (soyyeong 블로그)
[S3] 기계학습 기반 언어분석 기술 연구 (김분도, 숭실대학교 대학원 논문)
[S4] 언어 네트워크 분석을 이용한 코로나19 위험인식 연구 (장사랑, 손애리 - 보건교육건강증진학회지)
[S5] 사용자 검색 의도(Search Intent) 이해 (InterAd 인사이트)

📝 변경 이력 (Change history)

2026-06-09: Initial draft generated via Datacollector_MAC P-Reinforce engine. 통계 기반 및 그래프 기반 비지도 학습 기법을 통합하여 문서화 완료.

11 KiB Raw Blame History