- Topic_Blog: 미추적 상태였던 SEO/색인 지식 문서 일괄 추적 추가
(Google '페이지 색인 생성 보고서' 기반 신규 6종 포함:
페이지 색인 생성 보고서/색인 생성 유효성 검사/Soft 404/NOINDEX/
크롤링됨·발견됨-현재 색인 안 됨/SEO를 위한 HTTP 상태 코드).
- orphan 연결: 완전 고립된 지식 문서 9개를 관련 기존 문서와 양방향 링크
(Game Design 쌍, Aerospace, Apple Vision Pro, 3D_Web_HMI, Stock 3,
Topics_Biz). append-only, 존재 타깃만 링크(dangling 0).
도구: Datacollect/scripts/wiki_audit.mjs (중복·orphan 감사)
Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
언어 네트워크 분석은 텍스트 내 개념들의 동시 출현 패턴을 사회 네트워크 지표로 정량화하여, 인간의 인식 속에 내재된 의미적 연결 구조와 하위 주제망을 도출하는 다차원적 분석 체계이다. [S145],[S154]
🧠 핵심 개념 (Core concepts)
동시출현빈도 (Co-occurrence Frequency): 특정 텍스트 윈도우(Windows) 내에서 단어들이 함께 등장하는 빈도를 기반으로 연결 강도를 정의한다. [S159]
중심성 지표 (Centrality Measures): 단어가 네트워크 전체의 흐름과 구조에서 차지하는 상대적 중요도를 아이겐벡터(Eigenvector) 및 매개(Betweenness) 지표로 산출한다. [S160]
응집 집단 분석 (Cohesive Group Analysis): 단어 간의 밀접한 연결성을 바탕으로 전체 네트워크를 의미론적으로 유사한 하위 집단(커뮤니티)으로 군집화한다. [S145],[S165]
객관적 시각화 (Visualization): 텍스트가 내포한 본연적 내용 구조를 노드(단어)와 엣지(관계)의 그래프로 형상화하여 연구자의 주관적 개입을 최소화한다. [S154],[S159]
🧩 추출된 패턴 (Extracted patterns)
커뮤니티 탐지 패턴: Newman(2006)이 제안한 Modularity(Q) 값을 활용하여 네트워크를 최적의 하위 주제 개수로 분할하고 각 주제의 경계를 식별한다. [S165]
아이겐벡터 중심성 가중치: 단순히 연결된 노드 수만 세는 것이 아니라, '중요한 노드와 연결될수록 더 중요하다'는 가중치를 반영하여 전체 인식의 핵을 파악한다. [S160]
매개 중개 패턴: 직접 연결되지 않은 단어들 사이에서 중개자 역할을 수행하는 단어를 식별함으로써 정보 흐름의 통제력과 맥락적 일관성을 유지하는 핵심 용어를 도출한다. [S161]
⚖️ 비교 및 선택 기준 (Comparison & decision criteria)
항목 (Option)
장점
단점
언제 선택
중심성 분석
전체 맥락에서 가장 영향력이 크거나 흐름을 주도하는 단어 식별 용이. [S160]
단어 간의 세부적인 그룹핑 정보는 제공하지 않음.
텍스트 인식 구조의 '핵심어'를 도출할 때.
커뮤니티 분석
거대한 텍스트 속에 숨겨진 여러 개의 하위 주제(Topic)를 스스로 찾아냄. [S165]
그룹 간의 경계가 모호한 경우 해석이 어려울 수 있음.
비정형 데이터의 '주제 분류'가 목적일 때.
빈도 기반 분석
계산이 빠르고 직관적이며 데이터의 명시적 양을 보여줌. [S159]
단어의 문맥적 관계나 숨겨진 중요도를 파악하기 어려움.
데이터의 주요 키워드 후보를 빠르게 선별할 때.
📖 세부 내용 (Details)
1. 분석 원리와 기술적 토대
학제 간 융합: 내용 분석(Content Analysis)과 사회 네트워크 분석(Social Network Analysis)을 결합하여 개념들의 의미적 관계를 계량화한다. [S154]
전처리 프로세스: 형태소 분석을 통해 텍스트를 단위별로 분리하고, 불용어 제거 및 의미 있는 명사 추출 과정을 거친다. [S161],[S162] 이때 동일 의미의 단어(예: '애기', '자녀')는 '아이' 등으로 통제하여 노드의 중복을 방지한다. [S161]
매트릭스 생성: 선정된 핵심어를 바탕으로 '단어 × 단어' 형태의 행렬(Matrix)을 구성하여 분석의 입력값으로 사용한다. [S163]
2. 주요 분석 지표의 활용
아이겐벡터 중심성: 연결된 다른 단어들의 중심성까지 고려하여 전체 구조 내 영향력을 측정한다. [S160] 예를 들어, 20대의 코로나19 인식에서는 '마스크'의 빈도가 높았으나 아이겐벡터 중심성은 '가족'과 '집'이 더 높게 나타나 실질적 관심의 핵을 보여주었다. [S163],[S164]
매개 중심성: 네트워크 내 최단 거리의 경로상에 위치하는 정도를 측정한다. 이 지표가 높은 단어가 사라지면 전체 네트워크의 흐름이 단절되므로 맥락 유지의 핵심 요인이 된다. [S161]
3. 의미론적 검색 및 요약과의 연관성
언어 네트워크는 구글의 허밍버드(Hummingbird) 업데이트에서 강조된 '실체(Entity)' 간의 관계 분석과 궤를 같이한다. [S109],[S110]
TextRank와 같은 알고리즘은 단어 간의 공생 관계를 그래프로 구성하고 PageRank의 재귀적 원리를 적용하여 핵심 키워드를 산출하는 언어 네트워크 분석의 전형적 사례이다. [S51],[S58]
⚖️ 모순 및 업데이트 (Contradictions & updates)
수식의 정교화: PageRank의 초기 수식(모든 합이 1이 된다는 설명)과 달리 실제로는 전체 페이지 수(N)가 합이 되는 구조적 차이가 지적되어 수정된 수식이 제안되기도 했다. [S50],[S57]
동질적 말뭉치 권장: 비지도 학습 기반의 네트워크 분석은 이질적인 문서 집합보다는 영화 댓글, 뉴스 기사와 같이 유사한 언어 패턴을 공유하는 '동질적 집단'의 문서에서 결과가 더 명확하다. [S5],[S23]
🛠️ 적용 사례 (Applied in summary)
코로나19 위험 인식 연구: 20대~50대의 심층 인터뷰 텍스트를 NetMiner 4를 활용해 분석하여 연령대별로 상이한 위험 구조(개인화된 위험 vs 집단감염)를 시각화함. [S145],[S159]
soynlp 라이브러리: 연관어 분석을 위한 sent_to_word_contexts_matrix 함수를 통해 (단어, 문맥 단어) 매트릭스를 생성하고 PMI(PPMI)를 계산하는 기능을 제공함. [S13]
KR-WordRank: 토크나이저 학습 없이 HITS 알고리즘을 사용해 substring graph 내에서 키워드를 추출하는 방식으로 구현됨. [S16]
💻 코드 패턴 (Code patterns)
soynlp를 활용하여 언어 네트워크 분석의 기초가 되는 동시 출현(Co-occurrence) 매트릭스를 생성하는 패턴이다.
# soynlp를 활용한 (word, context words) matrix 생성 예시fromsoynlp.vectorizerimportsent_to_word_contexts_matrix# 1. 문장 리스트 전처리 및 준비 (sentences: list of str)# 2. 공생 매트릭스 생성# windows: 앞뒤 윈도우 크기, min_tf: 최소 출현 빈도# dynamic_weight: 거리에 반비례한 가중치 적용 (예: 1칸=1, 2칸=2/3, 3칸=1/3)x,idx2vocab=sent_to_word_contexts_matrix(sentences,windows=3,min_tf=5,dynamic_weight=True)# x는 scipy.sparse.csr_matrix 형식으로 중심성 계산 등에 바로 활용 가능