Mutual Information (상호 정보량)

📌 한 줄 통찰 (The Karpathy Summary)

"두 변수가 공유하고 있는 정보의 양을 측정하여, 하나를 알 때 다른 하나에 대한 불확실성이 얼마나 사라지는지 수치화하라" — 두 확률 변수 사이의 상호 의존성을 측정하는 지표로, 단순한 선형 관계를 넘어 비선형적인 연관성까지 모두 포착할 수 있는 정보 이론적 척도.

추출된 패턴: "Uncertainty Reduction" — 변수 $X$를 관찰함으로써 변수 $Y$의 엔트로피(불확실성)가 얼마나 감소하는지 계산하여, 두 변수가 얼마나 밀접하게 얽혀 있는지 파악하는 패턴.
수식적 정의: I(X; Y) = H(X) + H(Y) - H(X, Y) (각자의 엔트로피 합에서 결합 엔트로피를 뺀 값).
주요 특징:
- Non-linear Correlation: 상관계수가 0이라도 상호 정보량은 높을 수 있음 (비선형적 관계 포착 가능).
- Symmetry: I(X; Y) = I(Y; X).
- Non-negativity: 항상 0 이상의 값을 가지며, 0인 경우 두 변수는 독립임.
의의: 머신러닝의 특징 선택(Feature Selection), 데이터 압축, 베이지안 네트워크 구축, 독립 성분 분석(ICA) 등에서 핵심적인 판단 기준으로 활용됨.

과거 데이터와의 충돌: 연속형 변수에서 상호 정보량을 계산할 때 구간 분할(Binning) 방식에 따라 값이 왜곡될 수 있다는 한계가 있어, 최근에는 KNN 기반의 KSG 추정기나 MINE(Mutual Information Neural Estimation) 등 신경망 기반 추정 기법이 주로 사용됨.
정책 변화: Antigravity 프로젝트는 에이전트의 지식 임베딩 품질을 평가할 때, 입력 텍스트와 추출된 핵심 개념 사이의 상호 정보량을 측정하여 정보 손실을 최소화하는 지표로 활용함.

Kullback-Leibler-Divergence, Independent-Component-Analysis, Feature-Selection-Strategies, Probability-Theory
Raw Source: 10_Wiki/Topics/AI/Mutual-Information.md