# [[Machine Learning Bias]]

## 📌 Brief Summary
기계 학습 편향(Machine Learning Bias)은 훈련 데이터나 모델의 예측 동작에 있어 연령, 소득 계층 등 다양한 그룹 간에 불균형이 존재하는 현상을 의미합니다 [1]. 기계 학습 모델과 벡터 임베딩은 훈련 데이터에 내재된 편향을 의도치 않게 상속받아 인코딩하고 증폭시킬 수 있습니다 [2, 3]. 따라서 공정하고 편향되지 않은 결과를 보장하기 위해서는 개발자들이 편향을 적극적으로 감지, 측정 및 완화해야 합니다 [1, 2].

## 📖 Core Content
* **훈련 데이터의 불균형으로 인한 편향 발생:** 기계 학습 도구는 전적으로 정확하지 않으며 불확실성이나 편향을 내포할 수 있습니다. 예를 들어, 기계 학습 도구가 주로 중년층의 데이터를 바탕으로 훈련되었다면, 청년층이나 고령층과 관련된 예측을 수행할 때 정확도가 떨어지는 불균형 현상(편향)이 발생합니다 [1].
* **벡터 임베딩과 검색 시스템 내의 편향 증폭:** 벡터 검색 등에 사용되는 기계 학습 모델은 훈련 데이터에 존재하는 편향을 상속받아 증폭시킬 수 있습니다 [2]. 벡터 임베딩 역시 데이터의 편향을 의도치 않게 인코딩할 수 있으므로, 형평성 있는 검색 결과를 유지하기 위해 개발자의 적극적인 개입과 편향 제거 노력이 필요합니다 [3].
* **사용자 행동 데이터에 내재된 편향:** 검색 결과의 순위를 학습하기 위해 사용자 행동 데이터(예: 클릭 로그)를 사용할 때도 여러 편향이 개입됩니다 [4, 5]. 대표적으로 사용자는 상위에 랭크된 결과가 이미 관련성이 높을 것이라고 가정하여 상단 검색 결과를 주로 클릭하는 경향이 있는데, 이는 훈련 데이터에 '위치 편향(Position bias)'을 유발합니다 [4, 5].
* **필터 버블(Filter Bubbles) 형성:** 검색 알고리즘이 사용자의 과거 행동, 선호도 및 상호작용을 기반으로 콘텐츠를 선별할 때 필터 버블이 발생할 수 있습니다 [2]. 이는 사용자를 다양한 관점과 정보로부터 고립시키고 좁은 시각을 갖게 만들며, 기존의 신념과 편향을 더욱 강화하는 결과를 초래합니다 [2].

## ⚖️ Trade-offs & Caveats
* **정확성의 한계와 지속적 관리 비용:** 기계 학습 도구는 본질적으로 완벽하게 정확하지 않기 때문에, 검색 및 예측 알고리즘을 최적화하더라도 항상 불확실성이나 편향이 존재할 위험을 수반합니다 [1]. 따라서 공정한 결과를 유지하려면 개발자가 끊임없이 모델을 모니터링하고 편향을 완화하는 추가적인 관리 비용이 듭니다 [2, 3].
* **개인화 최적화와 필터 버블의 부작용:** 사용자 경험을 향상시키기 위해 검색 결과를 사용자의 행동 패턴에 맞춰 고도로 개인화(최적화)하면, 결과적으로 사용자가 다양한 정보에 노출될 기회가 차단되어 편향을 낳는 '필터 버블' 현상이 짙어지는 반대 급부가 발생합니다 [2].
* **행동 데이터 활용의 제약:** Learning to Rank(LTR)와 같은 모델을 훈련시키기 위해 클릭률 등 행동 추적 데이터를 활용하면 모델의 관련성 평가는 향상될 수 있으나, 필연적으로 위치 편향과 같은 편향이 함께 유입되므로 모델 구축 시 이를 고려하고 다루어야 하는 제약 사항이 따릅니다 [5, 6].

---
*Last updated: 2026-05-04*